hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接

hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接进去hdfs,然后我写mapreduce程序分析这些评论,分析它到底是说... hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接进去hdfs,然后我写mapreduce程序分析这些评论,分析它到底是说这个品牌的手机好还是不好(这个步骤我想不出有什么比较好的方法,是不是用分词提取关键字?比如别人评论“电池消耗快”,我就提取电池和消耗快 这两个关键字就可以判断这个评论是说这个手机电池不好?如果这样我岂不是要做很多关键字的列表?不知道有没有更好的方法?还有这步能不能不写mapreduce,直接用hive处理?)。接着分析完这些比较杂乱的评论后,我就会得到针对这个品牌的各个型号的评论评价。然后我就hive统计汇总这些数据。 整套过程下来写好的每个脚本我都封装成一个一个shell脚本(这里我不知道mapreduce程序写好后要怎么去调度它,是不是打成jar,在shell调用它?不知道大家一般的处理方法是怎样的?),然后用一调度程序定时调度这些脚本。我现在想到的处理流程就是这样的,求大神给指导下,我这样行不行,一般处理方法又是怎样的? 谢谢大神! 展开
 我来答
nikaiye
2015-07-01 · 超过11用户采纳过TA的回答
知道答主
回答量:55
采纳率:0%
帮助的人:18.3万
展开全部
crontab做定时执行脚本,hive的直接放脚本里,mr的打成jar通过脚本运行。爬数据—数据清洗—每个评论lucence分词-取部分评论定义标签,好评中评差评—通过贝叶斯学习获得分类器模型—对测试数据预测—结果保存
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式