五笔字型中,词组的编码规则是?

 我来答
匿名用户
2013-08-09
展开全部
五笔字型单字编码规则

一、五笔字型编码歌诀

  掌握汉字的编码规则,熟悉每个汉字的编码,是五笔字型输入的基础,下面提供的单个字的五笔字型编码规则歌忘记诀:

五笔字型均直观,依照笔顺把码编;键名汉字打四下,基本字根请照搬;

一二三末取四码,顺序拆分大优先;不足四码要注意,交叉识别补后边。

  从这歌诀就可以看出五笔字型编码规则的大致面貌,同时口诀也概括了五笔字型拆字取码的五项原则:

  1、从形取其顺序按书写规则,即从左到右、从上到下、从外到内;

  2、以130多个字根为基本单位;

  3、对于字根数超过四个的汉字,按一二三末字根的顺序,最多只取四码;

  4、单体结构拆分取大优先;

  5、末笔与字型交叉识别。

 下图是五笔字型编码流程图,以方便读者了解整个编码方案的概貌:

二、键名汉字的编码规则

  五笔字型中规定的键名汉字共有25个,"王土大木工目日口田山禾白月人金言立水火之已子女又纟"

  25个键名汉字与25个字母键相应,这些字的编码相当简单,它们的编码就是4个所在字母键字母,如:"言"字的编码为"YYYY","纟"字的编码为"XXXX",等等。输入键名汉字时,只要连续击四次该字所在的字母键即可。

三、成字字根的编码规则

  在五笔字型字根键盘的每个字母键上,除了一个键名字根外,还有一些其它类型的字根。有些字根其本身就是一个汉字,这样的字根称为成字字根。成字字根的编码是按下面公式进行的:

 键名码+首笔码+次笔码+末笔码

  当成字字根仅为两笔时,编码只有三码,公式为:

  键名码+首笔码+末笔码

例如:"石",字根所在的键为D,第一笔划为 "横"的编码是G,第二笔为 "撇"的编码是T键,末笔"横"的编码也是G键,所以这个字的五笔编码就是DGTG。再比如"虫"字,这个字根是在J键,第一笔是竖H,第二笔是折N,最末一笔是捺(在五笔里"点"做为"捺")Y,所以"虫"的五笔编码就是JHNY。

四、键外字的编码规则

  国标GB2312-80中,上述的键名和成字字根这样的键面字总共才有一百多个,绝大部分汉字都不是成字字根,这些才是我们在使用当中用得最多的。

  五笔字型汉字编码主要是键外字的编码,编码可以分为两类,纯字根码和识别码。如果一个汉字的字根是四个或超过四个,就用前三后一总共四个字根码组成编码。

  不足四个字根的汉字需补一个字型结构识别码,以增加区分汉字的信息量。

  1、字根码

  每个字根都分派在一个字母键上,其所在键上的英文就是该字根的"字根码"。 凡含四个或超过四个字根的汉字,取其第一、二、三、末四个字根码组成键外字的输入编码。第一字根编码+第二字根编码+第三字根编码+最末一个字根编码这里一、二、三、末应按正常书写顺序,先左后右,先上后下,先外后内。

  2、交叉识别码

  一个字的字根不足四个时,依次击入字根码后,最后需要补一个识别码。为什么需要这个识别码呢,这里可以举例说明:如"沐"和"汀"字,这两个字都是由两个字根组成的,且这两个字的字根码都是IS。虽然也可以让输入者选择的方式来确定到底需要输入哪一个字,但这对汉字输入速度极为不利,重码率要越低越好,所以五笔编码中才引入了识别码这个概念来对这类汉字进行区分。

  识别码是用该汉字最后一个笔画和字型结构信息来确定的,具体规则如下表:

左右结构(第1位) 上下结构(第2位) 杂合结构(第3位)

末笔是"横",在一区 G F D

末笔是"竖",在二区 H J K

末笔是"撇",在三区 T R E

末笔是"捺",在四区 Y U I

末笔是"折",在五区 N B V

  从上表可以看出,识别码的确定分两个步骤,第一步根据最后一笔确定是在哪个区,第二步再以该汉字的字型结构来确定在哪一位,然后就能得到具体识码了。  例:"旮"字,这个字同旭一样字根只有两个,字根码为VJ,但字型不同,可以通过识别码来区分,"旮"最末笔是横,在一区,是上下结构,所以是在第二位,即F,所以"旮"的五笔编码就是VJF。再如"汀"字,最末一笔是左竖钩,在五笔里为竖,在第二区,这个字是左右型结构,所以在第一位,即H,所以"汀"的五笔编码就是ISH。

  加识别码后仍不足四码时,击空格键结束。单笔与字根相连的字型为杂合型,见前面所述。

  关于末笔画还有如下规定,这些规定使取码更为简单,明确。

 (1)、末字根为"力"、"刀"、"九"、"七"等时,一律认为末笔画为折。

 (2)、"进"、"逞"、"选"等字,不以"走之"的末笔为末笔(书写时确实是末笔,但这样末笔都一样,减少了识别信息量,约定以去掉"走之"部分后的末笔整个字的末笔来构造识别码。进、逞、远的识别码应分别为:23,K;13,D;53,V。当以"走之"末笔为末笔时,则识别码都相同,为43,I。没有得到识别信息。

 (3)、"我"、"戋",成等字的末笔取"丿"。  

五、简码

  为了提高输入速度,五笔字型方案还设计了简码输入,它将常用汉字只取其前边的一个、两个或三个字根构成,因为"识别码"总是在全码的最后位置,所以简码的设计不但减少了击键次数,而且省去了部分汉字的"识别码"的判别和编码,给击键带来了很大方便。

  简码汉字共分三级:

  1、一级简码

  五笔字型中,根据每个字母键上的字根形态特征,每键安排一个最为常用的高频汉字,这类字共25个,它们的编码只有一位,输入时只要击键一次再加一次空格键即可。这些高频字及其编码如下:

    一 G 地 F 在 D 要 S 工 A

    上 H 是 J 中 K 国 L 同 M  

    和 T 的 R 有 E 人 W 我 Q

    主 Y 产 U 不 I 为 O 这 P

    民 N 了 B 发 V 以 C 经 X

 这些高频字实际情况的键位记忆可以与键名联想起来进行,大家详细看看,可以发现有两个字,其一级简码字与键名字是相同的。下面是高频字与键名字对照表:

第一区: 一 ->王 地 ->土在 ->大 要 ->木 工 ->工

第二区: 上 ->目 是 ->日中 ->口 国 ->田 同 ->山  

第三区: 和 ->禾 的 ->白有 ->月 人 ->人 我 ->金

第四区: 主 ->言 产 ->立不 ->水 为 ->火 这 ->之

第五区: 民 ->已 了 ->子发 ->女 以 ->又 经 ->纟

  2、二级简码

  二级简码是指编码时取单字全码的前两个字根代码。二十五个键位代码,其两码组合共计有25*25=625个编码。也就是说,用两位码可以给与625个汉字编码。五笔字型就选取使用频率较高的600多个汉字与这些对应,这些编码就成为这些汉字的简码。

  3、三级简码

  三级简码由一个汉字的前三个字根组成,只要一个汉字的前三个字根码在整个编码体系中是唯一的,一般都作为三级简码,三个字母可以组成的编码数是:25*25*25=15625个。实际上,在国际基本集的5763个汉字中,有三级简码的汉字有4400多个。要输入这些汉字,只要依次键入这三个字根代码,再加上空格键即可。这样看上去似乎击键次数仍为四键,并没有减少,但是由于省略了前三个字根之后的字根判定或者交叉识别代码的判定,则可达到提高编码速度,进而达到提高输入速度的目的。

  在五笔字型编码方案中,具有简码的汉字总数达5000多个,它们已占国际基本集的5763个的绝大多数。因此,简码不但使用得编码输入变得非常简明直观,而且可以大地提高输入效率。

  当然,由于简码都是四码简略而得,所以有的字就会同时有几种简码。例如"经"字,即有一级简码、二级简码,又有三级简码,还可以用四位输入。所以,最好能够将简码汉字背熟,对于一个有几种简码的汉字,尽量采用击键次数少为好,这样可以提高你的输入速度。

六、重码和容错码

  如果一个编码对应着几个汉字,这几个字称为重码字;几个编码对应一个汉字,这几个编码称为汉字的容错码。

  在五笔字型中,当输入重码时,重码字显示在提示行中,较常用的字排在第一个位置上,并用数字指出重码字的序号,如果你要的就是第一个字,可继续输入下一个字,该字自动跳到当前光标位置。如果是其它的重码字则需要用数字键加以选择。

  例如:"嘉"字和"喜"字,都分解(FKUK),因"喜"字较常用,它排在第一位,"嘉"字排在第二位。若你需要"嘉"字则要用数字键2来选择。

  在汉字中有些字的书写顺序往往因人而异,为了能适应这种情况,允许一个字有多种输入码,这些字就称为容错字。在五笔字型编码输入方案中,容错字有500多个。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式