hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接
hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接进去hdfs,然后我写mapreduce程序分析这些评论,分析它到底是说...
hadoop如何分析论坛评论数据?我现在想到的方案是:用爬虫从某论坛抓取数据,抓取到数据之后我直接进去hdfs,然后我写mapreduce程序分析这些评论,分析它到底是说这个品牌的手机好还是不好(这个步骤我想不出有什么比较好的方法,是不是用分词提取关键字?比如别人评论“电池消耗快”,我就提取电池和消耗快 这两个关键字就可以判断这个评论是说这个手机电池不好?如果这样我岂不是要做很多关键字的列表?不知道有没有更好的方法?还有这步能不能不写mapreduce,直接用hive处理?)。接着分析完这些比较杂乱的评论后,我就会得到针对这个品牌的各个型号的评论评价。然后我就hive统计汇总这些数据。 整套过程下来写好的每个脚本我都封装成一个一个shell脚本(这里我不知道mapreduce程序写好后要怎么去调度它,是不是打成jar,在shell调用它?不知道大家一般的处理方法是怎样的?),然后用一调度程序定时调度这些脚本。我现在想到的处理流程就是这样的,求大神给指导下,我这样行不行,一般处理方法又是怎样的? 谢谢大神!
展开
1个回答
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询