python word2vec训练文本获取文本相似度及关联文本代码
代码语言:python
所属分类:其他
代码描述:python word2vec训练文本获取文本相似度及关联文本代码
代码标签: python word2vec 训练 文本 获取 相似度 关联
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
#!/usr/local/python3/bin/python3 # -*- coding: utf-8 -* import jieba from gensim.models import word2vec import logging #分词 f1 =open("/data/wwwroot/default/asset/fenci.txt",encoding = 'utf-8') f2 =open("fenci_result.txt", 'a',encoding = 'utf-8') lines =f1.readlines() # 读取全部内容 for line in lines: line.replace('\t', '').replace('\n', '').replace(' ','') seg_list = jieba.cut(line, cut_all=False) f2.write(" ".join(seg_list)) f1.close() f2.close() # 主程序 logging.basicConfig(format='%(asctime)s:%(levelname)s: %(message)s', level=logging.INFO) sentences =word2vec.Text8Corpus(u"fenci_result.txt") # 加载语料 model =word2vec.Word2Vec(sentences) #训练skip-gram模型,默认window=5 # 计算两个词的相似度/相关程度 try: y1 = model.wv.similarity(u"中方", u"中国") except KeyError: y1 = 0 print(u"【中方】和【中国】的相似度为:", y1) print("-----\n") # # 计算某个词的相关词列表 y2 = model.wv.most_similar(u"威胁", topn=20) # 20个最相关的 print(u"和【威胁】最相关的词有:\n") for item.........完整代码请登录后点击上方下载按钮下载查看
网友评论0