utf8编码与GB2312编码有何不同?
一、主体不同
1、gb2312:是字符编码名称,属简体中文编码的一种。
2、utf-8:是针对Unicode的一种可变长度字符编码。
3、iso-8859-1:是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致。
二、特点不同
1、gb2312:是基于 1980 年发布的《信息交换用汉字编码字符集基本集》,是中文信息处理的中国国家标准,是强制执行的中文编码。
2、utf-8:可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部份修改后,便可继续使用。
3、iso-8859-1:除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。
三、作用不同
1、gb2312:制定和应用为规范、推动中文信息化进程起了很大作用。
2、utf-8:逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。
3、iso-8859-1:符号中的大多数都可以在不进行实体引用的情况下使用,但是实体名称或实体编号为那些不容易通过键盘键入的符号提供了表达的方法。
参考资料来源:百度百科-ISO-8859-1
参考资料来源:百度百科-UTF-8
参考资料来源:百度百科-仿宋_GB2312
我们知道计算机是不能直接存储汉字的,这就需要对汉字进行编码,GB2312用2个字节存储一个汉字,而UTF8需要4个字节。
各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的“字符”。比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义:
1. 使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。
2. 规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。
各个国家和地区在制定编码标准的时候,“字符的集合”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。
在设计程序时,根据应用场景需要选择数据编码格式,例如需要对汉字字段进行按拼音进行排序,则要设置为GBK编码(它是GB2312的超集)