词汇共现算法
首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分...
首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。
前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?
如果你不能解决我的问题,如果能够提供一些能够帮助我的文献也万分感谢。
恩,我也觉得这种计算方法统计的不准确,所以现在寻求一个准确的方法,“Google距离”方面的能够提供一些资料吗? 展开
前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?
如果你不能解决我的问题,如果能够提供一些能够帮助我的文献也万分感谢。
恩,我也觉得这种计算方法统计的不准确,所以现在寻求一个准确的方法,“Google距离”方面的能够提供一些资料吗? 展开
3个回答
展开全部
一词汇共现理论Hoey 1991年指出实现语篇连贯可通过多种衔接机制,其中词汇衔接是最突出也是最重要的形式,占篇章衔接形式的40%左右。在词汇衔接的构成中,Halliday和Hasan 1976将其分为复现和共现关系两类。本文所讨论的“词汇共现”(co-occur-rence)指的是在某一语篇中词汇的使用与篇章的主题密切相关,同类词汇共同出现在同一语境中,以达到篇章连贯与衔接的目的,实现语篇的连贯功能。英国语言学家Firth提出了词汇衔接关系的搭配理论(collocation),[1]认为语篇通过对共现词汇的运用以达到语篇的完整及流畅。综合各家之言,词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。这种共现既可以出现在同一句子中,也可散落在这篇文章的每个角落。
展开全部
“频率是二元词共现绝对次数除以总词数。。。”这样计算出来的频率应该不太可行,个人建议科研看下“Google距离”的相关文章,这是一个新提出来的通过计算词语间在Google中共现的概率来衡量相互的语义关联程度的方法,希望对你有点小用~~
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
"如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?"
我觉得不应该除以总词数,应该是指定窗口内的词数吧。
我觉得不应该除以总词数,应该是指定窗口内的词数吧。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询