汉字处理研究内容

1个回答
展开全部
摘要 双向扫描法:分别用MM法和RMM法进行正向和逆向的扫描和初步的切分,并将用MM法初步切分的结果与用RMM法初步切分的结果进行比较,如果两种结果一致,则判定切分正确,如果两种结果不一致,则判定为疑点。这时,或者结合上下文有关的信息,或者进行人工干预,选取一种切分为正确的切分,由于要做双向扫描,时间复杂度增加,而且,为了使切词词典能够同时支持正向和逆向两种顺序的兀配和搜索,词典的结构比一般的切词词典要复杂得多。
咨询记录 · 回答于2022-12-24
汉字处理研究内容
计算机汉字处理技犬经许多计算机技术人员及其他科技工作者的不懈努力,在八一年代中期达到了实用的阶段。1、汉字的慨况汉字不同于西文,英文只有26个字符,俄文也只有33个字符。这些文字称为小字符集语种。而汉字是大字符集语种。根据文字工作者对汉字使用频度的研究
2、汉字处理的标准在1981年国家发布了一个标准,叫做《通讯用汉字字符集(基本集)用其交换码标准》(GB2312-80),该标准规定了二个内容:一是哪些汉字能用于通讯;二是交换码的标准。这个标准就成了后来计算机处理汉字的依据。
汉语词的自动获取方法主要有哪些
逐词遍历匹配法:这种方法是把词典中存放的词按由长到短的顺序,逐个与待切词的语料进行匹配,直到把语料中的所有的词都切分出来为止。由于这种方法要把词典中的每一个词都匹配一遍,需要花费很多时间,算法的时间复杂度相应增加,切词的速度较慢,切词的效率不高。
双向扫描法:分别用MM法和RMM法进行正向和逆向的扫描和初步的切分,并将用MM法初步切分的结果与用RMM法初步切分的结果进行比较,如果两种结果一致,则判定切分正确,如果两种结果不一致,则判定为疑点。这时,或者结合上下文有关的信息,或者进行人工干预,选取一种切分为正确的切分,由于要做双向扫描,时间复杂度增加,而且,为了使切词词典能够同时支持正向和逆向两种顺序的兀配和搜索,词典的结构比一般的切词词典要复杂得多。
有穷多级列举法:这和方法把现代汉语中的全部词分为两大类:一类是开放词,如名词、动词、形容词等,它们的成员几乎是无穷的;另一类是闭锁词,如连词、助词、叹词等,它们的成员是可以一一枚举的。切词时,先切出具有特殊标志的字符串,如阿拉伯数字、拉丁字母等,再切出可枚举的闭锁词,最后再逐级切出开放词。这是一种完全立足于语言学的切词方法,在计算机上实现起来还有困难。
下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消