
word2vec算出的词向量怎么衡量好坏
1个回答
2016-06-27
温州市瓯越职业培训学校是一家经温州市民政局批准成立的专门从事培训教育的正规机构,学校自1992年开创教育培训以来不断发展壮大,现开设电脑培训、会计培训、英语培训、手机维修培训等多个培训体系.
向TA提问
关注

展开全部
作者:Fiberleif
链接:http://www.zhihu.com/question/37489735/answer/73314819
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
目前常用的衡量word embedding质量好坏的task主要分为两类:
word analogy & document classification
1.word
analogy task
假设给了一对单词 (a , b) 和一个单独的单词c,
task会找到一个单词d,使得c与d之间的关系相似于a与b之间的关系,举个简单的例子:(中国,北京)和 日本,应该找到的单词应该是东京,因为北京是中国的首都,而东京也是日本的首都。 在给定word
embedding的前提下,task一般是通过在词向量空间寻找离(b-a+c)最近的词向量来找到d。
2.document
classification task
这是一种通过使用词向量来计算文本向量(可以被用来进行文本分类的工作)的方法,为了得到文本向量,task通常采用了一种很简单的方法:取文本中所有词的词向量的平均值来代表该文本的文本向量,进而通过文本分类的准确度来反向评价训练出的词向量的质量。
对于给定的word embedding,以上的方法确实可以大致地评价词向量的质量好坏,但我们不应该局限于它们,就像楼上所言,我们应该以word embedding对于实际任务的收益为评价标准,如果脱离了实际任务,很难讲不同的word embedding谁比谁更“好”,因为word embedding更像是一个解决问题所使用的工具而不是一个问题的终点。
链接:http://www.zhihu.com/question/37489735/answer/73314819
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
目前常用的衡量word embedding质量好坏的task主要分为两类:
word analogy & document classification
1.word
analogy task
假设给了一对单词 (a , b) 和一个单独的单词c,
task会找到一个单词d,使得c与d之间的关系相似于a与b之间的关系,举个简单的例子:(中国,北京)和 日本,应该找到的单词应该是东京,因为北京是中国的首都,而东京也是日本的首都。 在给定word
embedding的前提下,task一般是通过在词向量空间寻找离(b-a+c)最近的词向量来找到d。
2.document
classification task
这是一种通过使用词向量来计算文本向量(可以被用来进行文本分类的工作)的方法,为了得到文本向量,task通常采用了一种很简单的方法:取文本中所有词的词向量的平均值来代表该文本的文本向量,进而通过文本分类的准确度来反向评价训练出的词向量的质量。
对于给定的word embedding,以上的方法确实可以大致地评价词向量的质量好坏,但我们不应该局限于它们,就像楼上所言,我们应该以word embedding对于实际任务的收益为评价标准,如果脱离了实际任务,很难讲不同的word embedding谁比谁更“好”,因为word embedding更像是一个解决问题所使用的工具而不是一个问题的终点。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询