词汇共现算法

首先说下我做的课题，这是我的毕业设计，比较难，是关于中文文本错误的自动修改。最近查了很多资料，将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种，先对文本进行分... 首先说下我做的课题，这是我的毕业设计，比较难，是关于中文文本错误的自动修改。最近查了很多资料，将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种，先对文本进行分词，然后进行词单元的二元共现频率校验，如果共现频率大于某个阙值，则说明这个句子连续，句子中没有错误，否则有错。

前期的分词算法根据我这几天查找文献已经做出来了，现在要解决的问题是二元词的共现频率问题，我已经写了一个统计二元词共现绝对次数的算法，但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的，而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数，那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小，这样的话该怎么判断文本的错误？

如果你不能解决我的问题，如果能够提供一些能够帮助我的文献也万分感谢。
恩，我也觉得这种计算方法统计的不准确，所以现在寻求一个准确的方法，“Google距离”方面的能够提供一些资料吗？展开

 我来答

3个回答

#热议# 什么是淋病？哪些行为会感染淋病？

飘然还文雅的赤子b
2015-11-05 · TA获得超过1.6万个赞

知道大有可为答主

回答量：2484

采纳率：88%

帮助的人：690万

我也去答题访问个人页

关注

展开全部

一词汇共现理论Hoey 1991年指出实现语篇连贯可通过多种衔接机制,其中词汇衔接是最突出也是最重要的形式,占篇章衔接形式的40%左右。在词汇衔接的构成中,Halliday和Hasan 1976将其分为复现和共现关系两类。本文所讨论的“词汇共现”(co-occur-rence)指的是在某一语篇中词汇的使用与篇章的主题密切相关,同类词汇共同出现在同一语境中,以达到篇章连贯与衔接的目的,实现语篇的连贯功能。英国语言学家Firth提出了词汇衔接关系的搭配理论(collocation),[1]认为语篇通过对共现词汇的运用以达到语篇的完整及流畅。综合各家之言,词汇的共现通常可分为同义、反义、互补、上下义、组合等,这些搭配关系有别于传统意义上的语法搭配和习惯用法搭配,而是在一特定的语境中存在某种语义上的联系,它围绕着某一主题展开,就某一话题出现的相关词汇。这种共现既可以出现在同一句子中,也可散落在这篇文章的每个角落。

已赞过 已踩过<

评论收起

慕课网

广告2024-11-19

算法涵盖LangChain等前沿技术，跨领域实战，全面提升AI大模型能力!算法顶尖LLM领域专家亲自授课，传授实战精华，助力学员成为行业佼佼者!

class.imooc.com

woshiaiyueyue
推荐于2018-05-09 · TA获得超过258个赞

知道答主

回答量：3

采纳率：0%

帮助的人：0

我也去答题访问个人页

关注

展开全部

“频率是二元词共现绝对次数除以总词数。。。”这样计算出来的频率应该不太可行，个人建议科研看下“Google距离”的相关文章，这是一个新提出来的通过计算词语间在Google中共现的概率来衡量相互的语义关联程度的方法，希望对你有点小用~~

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

lekai9527
2019-06-11

知道答主

回答量：7

采纳率：0%

帮助的人：3768

我也去答题访问个人页

关注

展开全部

"如果频率是二元词共现绝对次数除以总词数，那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小，这样的话该怎么判断文本的错误？"
我觉得不应该除以总词数，应该是指定窗口内的词数吧。

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

慕课网算法工程师面试题，讲师将大厂主流经典的面试题归类梳理，带你掌握高效解题思路，摆脱题海，举一反三，只需20小时，完成面试准备。带你脱离题海，高效准备大厂面试。

coding.imooc.com广告

OfferGoose面试鹅助攻面试，算法工程师再也不怕卡壳

作为程序员，面试总爱问算法和系统设计，有了OfferGoose面试鹅，可以模拟面试，还能实时提示答案，贼方便!

www.offergoose.cn广告

词汇共现算法

您可能关注的内容

其他类似问题

为你推荐：