从数据中提取有用特征

 我来答

1个回答

机器1718
2022-07-04 · TA获得超过6832个赞

知道小有建树答主

回答量：2805

采纳率：99%

帮助的人：160万

关注

展开全部

几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此，需要将原始数据转换为数值。

当类别特征为原始形式时，其取值来自所有可能取值所构成的集合，而不是一个数字，故不能作为输入。
将类别特征表示为数字形式，常可借助k之1（1-of-k）编码方法进行。

如果每个单词都是一种可能的取值，那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次，学习效果也不理想，因此需要将原始的文本转换为一种更便于机器学习的形式。

另外还有一个特征抽取的神器： word2vec ，有兴趣可以参考这篇文章《通俗理解word2vec》

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

其他类似问题