spark之word2vec使用(python) - 一个今天胜过两个明天 - ITeye博客

`

strayly

浏览: 93668 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jyjsjd：请教博主这个ChineseTokenizer()你是怎么写的， ...
使用WVTool进行文本分类
superclay：能不能发个indexwriter　　　indexsearch　 ...
结合ehcache缓存对lucene使用单例模式搜索
strayly：我采用和ehcache缓存结合使用单例模式使用ehcache ...
lucene搜索优化（转）

spark之word2vec使用(python)

博客分类：

spark
python

阅读更多

from pyspark import SparkConf, SparkContext,SQLContext
from pyspark.sql import SparkSession 
from pyspark.ml.feature import Word2Vec,CountVectorizer

conf = SparkConf().setAppName("yjs_rec")
sc = SparkContext(conf=conf) 
sqlContext=SQLContext(sc)

'''
documentDF = sqlContext.createDataFrame([
    ("Hi I heard about Spark".split(" "),),
    ("I wish Java could use case classes".split(" "),),
    ("Logistic regression models are neat".split(" "),)
], ["text"])
'''
spark_df = sqlContext.createDataFrame(documentDF)
#word2vec
word2Vec = Word2Vec(vectorSize=100, minCount=0, inputCol="words", outputCol="result")
model = word2Vec.fit(spark_df)
result = model.transform(spark_df)
result.select("result").show()

分享到：

计算文本词频进行聚类 | spark2.3聚类算法lda代码(python)

2018-08-15 09:57
浏览 2017
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

word2vec, Google word2vec的python 接口.zip: word2vec, Google word2vec的python 接口 word2vec Google word2vec的python 接口。使用原始的C 进行训练，其他功能是纯 python numpy 。安装我推荐 Anaconda python 发行版。pip install wo

word2vec google python封装版本: google推出了一版word2vec，词的向量化技术极大改变了文本分析的传统方法。这种是深度学习的方法，在nlp领域的全新应用。现在提供python封装版本，方便nlp的工程师们在自己熟悉的python领域进行应用。

基于python的word2vec: 自己写的Word2vec工具包，参数可以在文件内部自行修改

Python-word2vec使用word2vec改进搜索结果: word2vec：使用word2vec改进搜索结果

python使用Word2Vec进行情感分析解析: python实现情感分析（Word2Vec） ** 前几天跟着老师做了几个项目，老师写的时候劈里啪啦一顿敲，写了个啥咱也布吉岛，线下自己就瞎琢磨，终于实现了一个最简单的项目。输入文本，然后分析情感，判断出是好感还是反感...

word2vec basic python代码详解（配合Wordvec的数学原理使用更佳）: 该文档详细描述了Python版的word2vec基础代码的代码流程，便于理解Word2vec中的CBOW模型以及SKIP-gram模型。

Word2Vec Python源代码: Word2vec 支持多种单词相似度任务；既可以计算词汇相似度，也可以计算句子相似度。功能强大，简单易学！

基于 word2vec 计算文本相似度的话题聚类研究: 为了能在聚类中更准确地对文本进行相似度计算，本文采用 word2vec 将词语表示成词向量，并提出了一种基 10 于稠密特征的 DC-word2vec 算法，通过引入高频网络词组成的高维词表对特征向量进行扩维映射，使其变得...

python+Word2Vec实现情感分析完整项目: python实现了情感分析的完整项目，包含训练样本，训练好的模型，完整代码。python实现了情感分析的完整项目，包含训练样本，训练好的模型，完整代码。python实现了情感分析的完整项目，包含训练样本，训练好的模型，...

基于python的svm与word2vec文本情感分析设计与实现: 基于python的svm与word2vec文本情感分析设计与实现

Word2Vec java版实现: Word2Vec的java版实现，可用于NLP领域的研究与学习。

word2vec词向量训练及中文文本相似度计算【源码+语料】: 该资源主要参考我的博客：word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动...

Python-Lit2Vec使用Word2Vec算法将书籍表示为向量: Lit2Vec - 使用Word2Vec算法将书籍表示为向量

word2vec数学原理: word2vec数学原理，很强大的一个深度学习库。它可以将语料库中的词转化为向量

Word2Vec结果: Word2Vec结果 Word2Vec结果 Word2Vec结果 Word2Vec结果

word2vec源码与原理: 资源包括word2vec源码与Deep_Learning实战之word2vec.pdf

word2vec+LSTM_Mini.rar: word2vec+lstm情感分析（三分类）+使用说明使用方法： 1、修改 ../data/neg(消极）../data/pos(积极）../data/neutral(中立）训练数据及 ../data/sum(测试数据）（本数据为我上网download数据库，是不同情感方向的...

对Python中gensim库word2vec的使用详解: model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4) 参数解释： 1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。 2.size是输出词向量的...

word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文: word2vec的实现源码，并加上中文注解！

深度学习word2vec学习笔记: 互联网界很多公司也开始跟进，使用 word2vec 产出了不少成果。身为一个互联网民工，有必要对这种炙手可热的技术进行一定程度的理解。好在 word2vec 也算是比较简单的，只是一个简单三层神经网络。在浏览了多位大...

Global site tag (gtag.js) - Google Analytics