python word2vec训练文本获取文本相似度及关联文本代码

代码语言:python

所属分类:其他

代码描述:python word2vec训练文本获取文本相似度及关联文本代码

代码标签: python word2vec 训练 文本 获取 相似度 关联

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

#!/usr/local/python3/bin/python3
# -*- coding: utf-8 -*
import jieba
from gensim.models import word2vec
import logging
#分词
f1 =open("/data/wwwroot/default/asset/fenci.txt",encoding = 'utf-8')
f2 =open("fenci_result.txt", 'a',encoding = 'utf-8')
lines =f1.readlines() # 读取全部内容
for line in lines:
  line.replace('\t', '').replace('\n', '').replace(' ','')
  seg_list = jieba.cut(line, cut_all=False)
  f2.write(" ".join(seg_list))
  
f1.close()
f2.close()
# 主程序
logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO)
sentences =word2vec.Text8Corpus(u"fenci_result.txt") # 加载语料
model =word2vec.Word2Vec(sentences) #训练skip-gram模型,默认window=5

# 计算两个词的相似度/相关程度
try:
  y1 = model.wv.similarity(u"中方", u"中国")
except KeyError:
  y1 = 0
print(u"【中方】和【中国】的相似度为:", y1)
print("-----\n")
#
# 计算某个词的相关词列表
y2 = model.wv.most_similar(u"威胁", topn=20) # 20个最相关的
print(u"和【威胁】最相关的词有:\n") 
for item.........完整代码请登录后点击上方下载按钮下载查看

网友评论0