如何将中文转为unicode和GB2312
1个回答
2017-06-23
展开全部
1. Unicode概念
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
2. gb2312编码概念
GB 2312 或 GB 2312-80 是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
《GB2312-80》对 7445 个图形字符作了二进制数编码,这些图形字符是:
6763 个汉字,字体为简化字,分成两级。第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。一、二级汉字约占累计使用频度 99.99% 以上。
1)202 个一般符号。其中包括 1.~20.,(1)~(20),①~⑩,(-)~(+) 等。
2)22 个数字。其中 0~9 共 10 个,Ⅰ~Ⅻ 共 12 个。
3)52 个拉丁字母。其中大写字母 A~Z 26 个,小写字母 a~z 26 个。
4)169 个日文假名。其中平假名 83 个,片假名 86 个。
5)48 个希腊字母。其中大写字母 Α~Ω24 个,小写字母 α~ω 24 个。
6)66 个俄文字母。其中大写字母 А~Я33 个,小写字母 а~я 33 个。
7)26 个汉语拼音符号,包括带声调符号和其它符号的字母。
8)37 个汉语注音字母,ㄅ~ㄥ。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
2. gb2312编码概念
GB 2312 或 GB 2312-80 是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
《GB2312-80》对 7445 个图形字符作了二进制数编码,这些图形字符是:
6763 个汉字,字体为简化字,分成两级。第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。一、二级汉字约占累计使用频度 99.99% 以上。
1)202 个一般符号。其中包括 1.~20.,(1)~(20),①~⑩,(-)~(+) 等。
2)22 个数字。其中 0~9 共 10 个,Ⅰ~Ⅻ 共 12 个。
3)52 个拉丁字母。其中大写字母 A~Z 26 个,小写字母 a~z 26 个。
4)169 个日文假名。其中平假名 83 个,片假名 86 个。
5)48 个希腊字母。其中大写字母 Α~Ω24 个,小写字母 α~ω 24 个。
6)66 个俄文字母。其中大写字母 А~Я33 个,小写字母 а~я 33 个。
7)26 个汉语拼音符号,包括带声调符号和其它符号的字母。
8)37 个汉语注音字母,ㄅ~ㄥ。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询