机器学习算法怎么使用中文语料

我想用机器学习方法对中文文本的情感倾向进行分析，比方说用SVM分类器，对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢？语义相似度怎么计算？另外，我还考虑过... 我想用机器学习方法对中文文本的情感倾向进行分析，比方说用SVM分类器，对中文文本进行分词预处理之后怎么将单词变成可以进行学习的数据呢？语义相似度怎么计算？
另外，我还考虑过使用SO-PMI算法进行词语情感倾向性分析，但是关于这个算法的资料我没怎么找到，不清楚应该怎样编程实现算法计算两个词语的PMI值
麻烦了解这方面信息的朋友帮帮忙解答一下，感激不尽！展开

 我来答

1个回答

#热议# 不吃早饭真的会得胆结石吗？

clverboy
2015-02-27 · TA获得超过243个赞

知道答主

回答量：64

采纳率：0%

帮助的人：50.4万

我也去答题访问个人页

关注

展开全部

这个事情很简单

首先得有词汇特征就是一组词语的集合
比如特征集可以是
[这，个，事情，简单，机器，学习，中文，语料]
有了这个以后就可以表示句子了
例如：
“这个事情很简单”
[1, 1, 1, 1, 0, 0, 0, 0]
"机器学习算法怎么使用中文语料"
[0, 0, 0, 0, 1, 1, 1, 1]

看出啥意思了吧，对于一个句子，特征词出现的位置就标1，不出现就标0。所以句子就成了向量，用欧氏距离、余弦夹角等等方法就可以计算两个向量的相似度，那就对应句子的相似度了。
这里面特征词选择方法有很多，常见的有TF、DF、TF-IDF等等，也可以人为指定。
向量里面表的数值也有很多算法，0、1是比较适合情感倾向分析的标法。

PMI指的是点互信息
PMI(a, b)=p(a,b)/(p(a)p(b))
假设有一个句子集合，总量为N
出现a次数为A，出现b次数为B
a和b同时出现在同一句话中的次数为C
则有p(a)=A/N， p(b)=B/N， p(a,b)=C/N
带入到公式里就算出PMI了。
计算PMI时，A、B、C、N的统计方法有很多策略，根据实际情况定。

相关资料你可以看一下《统计自然语言处理》宗成庆写的。

若想了解更牛逼的办法的话先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好，就可以独步江湖称霸机器学习领域了~~哈哈~~

追问

那如果我要用SO-PMI算法分析词语情感倾向的话，是不是应该选取种子词，然后分别统计候选词和种子词在特定文本中的词频，再分别计算每个候选词的PMI值？假设我手上的数据是一个新闻网站某个月的某个频道的所有新闻报道，这个词频统计的基数是不是太大了些？
先谢谢了~

追答

是这么操作的~量大的话 可以考虑分时间段分类别统计 这种方法分的细些 效果好~再不行就搞分类

已赞过 已踩过<

评论收起

北京奇点星宇科技有限公司

广告2024-10-14

免费基础算法模型随意使用，零基础也可生成完美AI图片，输入文字即可生成心仪图片一位创作者加入，创作和分享你的作品。与中国原创模型作者交流，共同探索AI绘画

www.liblib.art

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

机器学习计算题_想高效学习，就下载夸克APP

机器学习计算题_各个学习阶段的相关学习内容夸克APP都有!

b.quark.cn广告

学算术的方法_想高效学习，就下载夸克APP

学算术的方法_各个学习阶段的相关学习内容夸克APP都有!

b.quark.cn广告

机器学习算法习题_想高效学习，就下载夸克APP

机器学习算法习题_各个学习阶段的相关学习内容夸克APP都有!

b.quark.cn广告

机器学习算法怎么使用中文语料

您可能关注的内容

其他类似问题

为你推荐：