词汇共现算法

首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分... 首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。

前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?

如果你不能解决我的问题,如果能够提供一些能够帮助我的文献也万分感谢。
恩,我也觉得这种计算方法统计的不准确,所以现在寻求一个准确的方法,“Google距离”方面的能够提供一些资料吗?
展开
 我来答
飘然还文雅的赤子b
2015-11-05 · TA获得超过1.6万个赞
知道大有可为答主
回答量:2484
采纳率:88%
帮助的人:690万
展开全部
一词汇共现理论Hoey 1991年指出实现语篇连贯可通过多种衔接机制,其中词汇衔接是最突出也是最重要的形式,占篇章衔接形式的40%左右。在词汇衔接的构成中,Halliday和Hasan 1976将其分为复现和共现关系两类。本文所讨论的“词汇共现”(co-occur-rence)指的是在某一语篇中词汇的使用与篇章的主题密切相关,同类词汇共同出现在同一语境中,以达到篇章连贯与衔接的目的,实现语篇的连贯功能。英国语言学家Firth提出了词汇衔接关系的搭配理论(collocation),[1]认为语篇通过对共现词汇的运用以达到语篇的完整及流畅。综合各家之言,词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。这种共现既可以出现在同一句子中,也可散落在这篇文章的每个角落。
woshiaiyueyue
推荐于2018-05-09 · TA获得超过258个赞
知道答主
回答量:3
采纳率:0%
帮助的人:0
展开全部
“频率是二元词共现绝对次数除以总词数。。。”这样计算出来的频率应该不太可行,个人建议科研看下“Google距离”的相关文章,这是一个新提出来的通过计算词语间在Google中共现的概率来衡量相互的语义关联程度的方法,希望对你有点小用~~
本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
lekai9527
2019-06-11
知道答主
回答量:7
采纳率:0%
帮助的人:3768
展开全部
"如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?"
我觉得不应该除以总词数,应该是指定窗口内的词数吧。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式