计算机常用的信息编码有哪几种
2019-11-09 · 百度认证:云南新华电脑职业培训学校官方账号
一般应有的代码有两类,一类是有意义的代码,即赋予代码一定的实际意义,便于分类处理;一类是无意义的代码,仅仅是赋予信息元素唯一的代号,便于对信息的操作。常用的代码类型有:
(1)顺序码,即接信息元素的顺序依次编码;
(2)区间码,即用一代码区间代表某一信息组;
(3)记忆码,即能帮助联想记忆的代码。
一般应有的代码有两类,一类是有意义的代码,即赋予代码一定的实际意义,便于分类处理;一类是无意义的代码,仅仅是赋予信息元素唯一的代号,便于对信息的操作。常用的代码类型有:
(1)顺序码,即接信息元素的顺序依次编码;
(2)区间码,即用一代码区间代表某一信息组;
(3)记忆码,即能帮助联想记忆的代码。
信息的表现形式多种多样,因而编码的方案也非常多。例如:我国制定的包括一、二级汉字和常用符号的图形字符代码(GB 5007-85),日文、韩文等其他文字与符号的“大5码”(BIG 5),英文字符的“ASCII码”(American Standard Code for Information Interchange) 。
字符编码就是以二进制的数字来对应字符集的字符,目前bai用得最普遍的字符集是ANSI,对应ANSI字符集的二进制编码就称为ANSI码,DOS和Windows系统都使用了ANSI码,但在系统中使用的字符编码要经过二进制转换,称为系统内码。
信息编码的第一个基本原则是唯一性原则。一种信息只能有一个信息编码,不同的信息有不同的信息编码,不同的信息编码表示不同的信息。这是信息编码的最本质的属性,也是信息编码必须遵循的原则。例如,为了有效地管理公司订单信息,每一个订单只能有一个订单编码。如果不同的订单有相同的订单编码,那么对订单信息的管理就会出现混乱。
正确性原则表示信息编码应当科学、合理,既遵循信息编码的基本原理,又符合组织的实际情况;既能满足组织自身的需要,又能满足组织合作伙伴的特殊要求;既要符合国家的标准或规定,又应该尽可能地遵守国际标准或惯例;信息编码既不宜过长,也不宜过短。在许多情况下,信息编码应当采用折中的方式。
分类是认识和描述信息的基本方式,信息编码应该遵循分类性原则。该原则要求信息应该按照合理的规则划分成不同的类别,使得同一类信息的编码在某一方面具有相同或相近的性质,这样便于管理信息系统的管理和使用。例如,为了对物料进行分类管理,采取了这样的编码方式:10表示原材料,101表示黑色金属原材料,102表示有色金属原材料,1023表示铝金属,10232表示铝棒。
随着组织的发展变化,组织中的管理信息也会随之发生变化。信息编码不能仅仅考虑组织当前的信息状况,而且应该考虑组织未来的发展状况和需要。信息编码应该有足够的编码资源,以便满足组织不断增长的对信息编码的需求。这是信息编码的扩展性原则。
统一性原则的含义是,组织中的信息无论是否采取统一的编码体系,只要有了唯一性的编码,那么组织中的所有部门都应该使用这种唯一性的编码,不能出现各自为政、一码多用的现象,同一种信息只能有一种信息编码。只有这样才能准确地识别信息和充分地实现信息共享。
信息编码是组织实现数字化管理的基础,是管理信息系统中各种信息最主要的标识和特征。也是组织最基础、最重要的规章制度之一。鉴于信息编码的重要性,信息编码规则确定并且信息编码使用之后,一般不允许改变。如果频繁地修改信息编码规则,那么有可能引起管理信息系统无法正确地识别信息和无法有效地执行管理功能,最终可能导致整个组织处于无序状态。这是信息编码不可更改性原则的要求。
为了避免同一种信息有不同的编码,信息编码应当包含信息特征。例如,在编码产品零部件和工装夹具时,不宜使用自然序号、产品所属号等方式,而应该依据零部件结构特征、工装夹具结构特征来编码,这样容易做到相同结构的零部件、工装夹具自然有相同的编码,类似结构的零部件、工装夹具有类似的编码,不同结构的零部件、工装夹具有不同的编码。在这种方式下,当为某个新零部件、工装夹具编写编码时,就可以很容易地发现具有这种结构特征的零部件、工装夹具是否存在,从根本上解决一物多码现象。这种有效地重用以前的知识、经验、成果的编码思想称为重用性原则。
信息编码的最终目的是为了更好地管理组织信息。即使是使用基于计算机技术的管理信息系统来管理各种信息,但是这种管理方式仍然不可缺少人工的参与。因此,信息编码不宜过于复杂,应该在满足其他原则的基础上,尽可能地简单明了、容易识别、学习和使用,这样可以避免组织采用新的信息编码时,组织中的各级管理人员由于不习惯、不方便等原因拒绝使用新的信息编码或者消极抵抗新的信息编码的使用,从而最终可能导致新的信息编码被放弃的命运。这是信息编码简单性原则的要求
为什么要编码?
大家可以先思考个问题:
计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言。
人类的语言有太多了,因而表示这些语言的符号太多。
我们无法用计算机中一个基本的存储单元—— byte 来表示。
因而必须要经过拆分或一些翻译工作,才能让计算机能理解。
我们可以把计算机能够理解的语言假定为英语,其它语言要能够在计算机中使用必须经过一次翻译,把它翻译成英语。
这个翻译的过程就是编码。
所以可以想象只要不是说英语的国家要能够使用计算机就必须要经过编码。
常见的编码有以下几种:
1. Unicode(Unicode Character Set)
Unicode包含除键盘以外的编码是Unicode,又称统一码、万国码、单一码、标准万国码。
Unicode在js、json里出现的比较多。
其格式为:\u+4位字符串\
例如:\u4e2d\ \u4e2d\
2. ASCII
美国信息交换标准代码,标准ASCII 码也叫基础ASCII码。
使用7位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0—9、标点符号以及在美式英语中使用的特殊控制字符。
3. URL编码
URL编码原理是使用安全的字符(没有特殊用途或者特殊意义的可打印字符)去表示那些不安全的字符。
可以避免Url中有些字符会引起歧义。
URI编码就是一个字符的ASCII码,它的ACSII码的十六进制式,在前面加上"%",就是它的URL编码。
例如:"/"的ASCII码是92,92的十六进制是5c, 所以"/"的URI编码就是 %5c
"胡"的ASCII码是-17670, 它的十六进制是BAFA, 所以它的URI编码就是 "%BA%FA"
4. Native编码
每个国家都有自己的Native编码,中国的是GBK(Chinese Internal Code Specification)。
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位。
GBK编码共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。
5. hex编码
Hex编码的原理就是将原来8位的二进制字节打断,分成两个4位的,并且在前面加上4个零,进行补位。
这样一个8位二进制字节就变成了2个8位的二进制字节,再将新得到的2个二进制字符,进行16位进制转换,得到的新的16位字符串就是Hex的值。
所以二进制的[72, 69, 88]与hex的484558是相等的。
例如:中国——E4B8ADE59BBD
6. BASE64编码
Base64要求把每三个8Bit的字节转换为四个6Bit的字节(3*8 = 4*6 = 24),然后把6Bit再添两位高位0,组成四个8Bit的字节。
也就是说,转换后的字符串理论上将要比原来的长1/3。