机器学习算法怎么使用中文语料

我想用机器学习方法对中文文本的情感倾向进行分析,比方说用SVM分类器,对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢?语义相似度怎么计算?另外,我还考虑过... 我想用机器学习方法对中文文本的情感倾向进行分析,比方说用SVM分类器,对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢?语义相似度怎么计算?
另外,我还考虑过使用SO-PMI算法进行词语情感倾向性分析,但是关于这个算法的资料我没怎么找到,不清楚应该怎样编程实现算法计算两个词语的PMI值
麻烦了解这方面信息的朋友帮帮忙解答一下,感激不尽!
展开
 我来答
clverboy
2015-02-27 · TA获得超过243个赞
知道答主
回答量:64
采纳率:0%
帮助的人:50.4万
展开全部
这个事情很简单

首先得有词汇特征 就是一组词语的集合
比如特征集可以是
[这,个,事情,简单,机器,学习,中文,语料]
有了这个以后就可以表示句子了
例如:
“这个事情很简单”
[1, 1, 1, 1, 0, 0, 0, 0]
"机器学习算法怎么使用中文语料"
[0, 0, 0, 0, 1, 1, 1, 1]

看出啥意思了吧,对于一个句子,特征词出现的位置就标1,不出现就标0。所以句子就成了向量,用欧氏距离、余弦夹角等等方法就可以计算两个向量的相似度,那就对应句子的相似度了。
这里面特征词选择方法有很多,常见的有TF、DF、TF-IDF等等,也可以人为指定。
向量里面表的数值也有很多算法,0、1是比较适合情感倾向分析的标法。

PMI指的是点互信息
PMI(a, b)=p(a,b)/(p(a)p(b))
假设有一个句子集合,总量为N
出现a次数为A,出现b次数为B
a和b同时出现在同一句话中的次数为C
则有p(a)=A/N, p(b)=B/N, p(a,b)=C/N
带入到公式里就算出PMI了。
计算PMI时,A、B、C、N的统计方法有很多策略,根据实际情况定。

相关资料你可以看一下《统计自然语言处理》 宗成庆 写的。

若想了解更牛逼的办法的话 先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好,就可以独步江湖 称霸机器学习领域了~~哈哈~~
追问
那如果我要用SO-PMI算法分析词语情感倾向的话,是不是应该选取种子词,然后分别统计候选词和种子词在特定文本中的词频,再分别计算每个候选词的PMI值?假设我手上的数据是一个新闻网站某个月的某个频道的所有新闻报道,这个词频统计的基数是不是太大了些?
先谢谢了~
追答
是这么操作的~量大的话 可以考虑分时间段分类别统计 这种方法分的细些 效果好~再不行就搞分类
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式