将爬取下来的网页进行文本分类,去除网页标签得到纯文本,之后为什么要去停用词,分词,怎么把文本表示成

将爬取下来的网页进行文本分类,去除网页标签得到纯文本,之后为什么要去停用词,分词,怎么把文本表示成特征向量进行分类?求解答... 将爬取下来的网页进行文本分类,去除网页标签得到纯文本,之后为什么要去停用词,分词,怎么把文本表示成特征向量进行分类?求解答 展开
 我来答
华氏逗比0fy
2016-02-23 · TA获得超过267个赞
知道小有建树答主
回答量:313
采纳率:77%
帮助的人:23.6万
展开全部
得有个字典。按频率摘文本。频率高的提前摘下来,低频词就被拆开了。
去停用词 我猜是去掉停用词。就是有些词不需要计算。
特征向量。不懂,
分类。通过统计已经分类的关键词文档集合应该可以得出关键词频率。
那么被分类文档如果关键词频率与该集合相似就可以归入该类了。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式