从数据中提取有用特征
1个回答
展开全部
几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。
当类别特征为原始形式时,其取值来自所有可能取值所构成的集合,而不是一个数字,故不能作为输入。
将类别特征表示为数字形式,常可借助k之1(1-of-k)编码方法进行。
如果每个单词都是一种可能的取值,那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次,学习效果也不理想,因此需要将原始的文本转换为一种更便于机器学习的形式。
另外还有一个特征抽取的神器: word2vec ,有兴趣可以参考这篇文章 《通俗理解word2vec》
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询