如何用 word2vec 计算两个句子之间的相似度?
展开全部
word2vec这个代名词也好计算软件也好,对于一个不太懂软件的人来说真的是很陌生,也可以说是一窍不通,但是从朋友那了解了很多,所以我觉得计算两个句子之间的相似度我觉得定义句子相似度是这个问题的关键。
word2vec,处理方式
正如矢量叠加的平均值;然后Mikolov等人也提出了doc2vec来处理单词vector,但是基本的想法并不遥远,我在实践中尝试过这些方法,可能会有一些效果。Word2vec、doc2vec我使用gensim的实现,在我自己的语料库上进行培训,语料库不跑得很快,所以各种参数都尝试了很多。因为培训模式没有一个好的评价基准,我认为word模拟不是很普遍,这个模型比较主观。
在中文语境中,通过适当的调优参数,也就是对结果有重要影响,我认为是窗口大小和最小值,word2vec的结果可以看到,doc2vec的结果很差,尤其是在较长的句子文章中。在文档级别,我认为doc2vec的健壮性不足以支持产品,它的健壮性不如LSI,或者简单的tf - idf。
我觉得文档相似度取决于文档的长度,如果是一个简短的文本,传统方法tf-idf,相反如果是长文本,可以使用word2vec。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询