从数据中提取有用特征

 我来答
机器1718
2022-07-04 · TA获得超过6832个赞
知道小有建树答主
回答量:2805
采纳率:99%
帮助的人:160万
展开全部

几乎所有的机器学习模型都是与用向量表示的数值特征打交道。因此,需要将原始数据转换为数值。

当类别特征为原始形式时,其取值来自所有可能取值所构成的集合,而不是一个数字,故不能作为输入。
将类别特征表示为数字形式,常可借助k之1(1-of-k)编码方法进行。

如果每个单词都是一种可能的取值,那么可能出现的单词组合几乎有无限种。这时模型几乎看不到有相同的特征出现两次,学习效果也不理想,因此需要将原始的文本转换为一种更便于机器学习的形式。

另外还有一个特征抽取的神器: word2vec ,有兴趣可以参考这篇文章 《通俗理解word2vec》

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式