
求个C语言程序设计答案
4.1.2数据集的存储本文通过人工的方法提取了一些评论信息,按下列格式存入到数据库中,预处理结果如下表所示,表3存储的是来自论坛、门户网站等一些站点内的评论信息。序号信息...
4.1.2 数据集的存储
本文通过人工的方法提取了一些评论信息,按下列格式存入到数据库中,预处理结果如下表所示,表3存储的是来自论坛、门户网站等一些站点内的评论信息。
序号 信息来源 类型 评论内容
1 腾讯网 门户网站 社会安全不容小觑,中国至少在这方面比该国做得好,因为这些事件,我们可以认识到和平与安定的重要性。
2 腾讯网 门户网站 太恐怖了,跟电影一样,头都切下来了!!!!!!!!!!!这美国佬不是喜欢管闲事吗?这可是在你眼皮底下做的
3 腾讯网 门户网站 好恐怖哦。
4 腾讯网 门户网站 奥巴马这就是你们美国的种族问题?好吧我知道了
5 人人网 社交网站 求互访
6 人人网 社交网站 找了个关摄像机的借口
…… …… …… ………………
表 3评论信息预处理结果
4.1.3 数据集预处理
对评论信息进行切词工作。
汉语分词是中文内容处理、分析与理解的必要条件,切词的准确程度将直接影响后面对文本信息的处理结果。经过对现有的分词系统的试用、测评,本课题决定采用第三代智能分词系统3GWS,该系统主要功能有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典。本部分首先要做的工作是利用智能分词软件3GWS对文本进行词的切分。未导入用户自定义词典的汉语分词系统不能识别出特定领域的专有名词,如“发货很快,东西也很好,下次买手机也到欧酷,昨天下午三点收到了我的宝贝,包装完美、全新原装、配件齐全、货真价实!”评价信息(图5)的普通分词结果如图6所示。
图 5 评论信息
图 6 切词结果
4.2 识别规则及其算法设计
流程
(1)短小评论识别
为了方便快捷地表达某种思想或是心情,网络上出现了许多各种各样的词汇,像“支持”、“加油”、“顶”、“打酱油”、“沙发”、“占座”、“无聊”、“灌水”等词语。虽然这些短小的评论与文章内容并没有关系,但有些是鼓励作者的话,有些还表达出了对文章和作者的感觉。这些评论对其他读者来说也许根本没什么意义,但是对作者来说却是很有意义。因为作者可以从这些短小的正常评论中得到鼓励,也可以了解到自己的不足,还能促使作者写出更多更好的文章,所以我们不能把这种短小的正常评论当作是垃圾评论。本文为了避免把这种短小的正常评论识别为垃圾评论,提出了利用网络常用语词典先对短小的评论进行类别的识别。短小评论识别的具体过程如下:
(1)计算每条评论的长度L,设置一个阈值X(1≤X≤5,多次实验所得);
(2)当L<X时,就属于是短小的评论,当X≥T时,此评论就属于非短小的评论;
(3)对于被识别为短小的评论,与网络常用语词典中的词语进行查找与匹配,匹配的网络正常词语个数记为N1,匹配的网络垃圾词语个数记为N2;
(4)如果N1≥N2,则把该评论标记为非垃圾评论,否则,标记为垃圾评论。
经过上述步骤之后,评论既被分成了长评论和短评论,同时又给短评论分出了类别。
(2)重复评论识别
根据上面切词的结果,某个词出现多次就是垃圾评论
(3)广告评论的识别
出现电话、邮箱、QQ号等联系方式都判定为判定为垃圾评论。 展开
本文通过人工的方法提取了一些评论信息,按下列格式存入到数据库中,预处理结果如下表所示,表3存储的是来自论坛、门户网站等一些站点内的评论信息。
序号 信息来源 类型 评论内容
1 腾讯网 门户网站 社会安全不容小觑,中国至少在这方面比该国做得好,因为这些事件,我们可以认识到和平与安定的重要性。
2 腾讯网 门户网站 太恐怖了,跟电影一样,头都切下来了!!!!!!!!!!!这美国佬不是喜欢管闲事吗?这可是在你眼皮底下做的
3 腾讯网 门户网站 好恐怖哦。
4 腾讯网 门户网站 奥巴马这就是你们美国的种族问题?好吧我知道了
5 人人网 社交网站 求互访
6 人人网 社交网站 找了个关摄像机的借口
…… …… …… ………………
表 3评论信息预处理结果
4.1.3 数据集预处理
对评论信息进行切词工作。
汉语分词是中文内容处理、分析与理解的必要条件,切词的准确程度将直接影响后面对文本信息的处理结果。经过对现有的分词系统的试用、测评,本课题决定采用第三代智能分词系统3GWS,该系统主要功能有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典。本部分首先要做的工作是利用智能分词软件3GWS对文本进行词的切分。未导入用户自定义词典的汉语分词系统不能识别出特定领域的专有名词,如“发货很快,东西也很好,下次买手机也到欧酷,昨天下午三点收到了我的宝贝,包装完美、全新原装、配件齐全、货真价实!”评价信息(图5)的普通分词结果如图6所示。
图 5 评论信息
图 6 切词结果
4.2 识别规则及其算法设计
流程
(1)短小评论识别
为了方便快捷地表达某种思想或是心情,网络上出现了许多各种各样的词汇,像“支持”、“加油”、“顶”、“打酱油”、“沙发”、“占座”、“无聊”、“灌水”等词语。虽然这些短小的评论与文章内容并没有关系,但有些是鼓励作者的话,有些还表达出了对文章和作者的感觉。这些评论对其他读者来说也许根本没什么意义,但是对作者来说却是很有意义。因为作者可以从这些短小的正常评论中得到鼓励,也可以了解到自己的不足,还能促使作者写出更多更好的文章,所以我们不能把这种短小的正常评论当作是垃圾评论。本文为了避免把这种短小的正常评论识别为垃圾评论,提出了利用网络常用语词典先对短小的评论进行类别的识别。短小评论识别的具体过程如下:
(1)计算每条评论的长度L,设置一个阈值X(1≤X≤5,多次实验所得);
(2)当L<X时,就属于是短小的评论,当X≥T时,此评论就属于非短小的评论;
(3)对于被识别为短小的评论,与网络常用语词典中的词语进行查找与匹配,匹配的网络正常词语个数记为N1,匹配的网络垃圾词语个数记为N2;
(4)如果N1≥N2,则把该评论标记为非垃圾评论,否则,标记为垃圾评论。
经过上述步骤之后,评论既被分成了长评论和短评论,同时又给短评论分出了类别。
(2)重复评论识别
根据上面切词的结果,某个词出现多次就是垃圾评论
(3)广告评论的识别
出现电话、邮箱、QQ号等联系方式都判定为判定为垃圾评论。 展开
1个回答
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询