Unicode与编码方式

 我来答

1个回答

#合辑# 机票是越早买越便宜吗？

青柠姑娘17
2022-06-23 · TA获得超过1.2万个赞

知道大有可为答主

回答量：6310

采纳率：100%

帮助的人：34.9万

我也去答题访问个人页

关注

展开全部

Unicode可以表示世界上的每一个字符，每一个字符都有相应并且唯一的二进制编码。Unicode是一种字符集，让几乎所有语言中的每个字符都和一个 唯一数字 对应起来。

https://unicode-table.com/cn/4F60/

Unicode 是为了解决传统的字符编码方案的局限而产生的， 它为每种语言中的每个字符设定了统一并且唯一的二进制编码 ，以满足跨语言、跨平台进行文本转换、处理的要求。也就是说世界上的任意一个字符，无论何种语言，都能在Unicode字符集中找到其对应的二进制编码。

Unicode的表现方式是U+XXXXXX，X代表一位十六进制数，可以有4-6位，不足 4 位前补 0 补足 4 位，超过则按是几位就是几位。

字符A的ASCII码是65，将65转换成16进制就是41（16×4+（16^0)×1 = 65）,按照规则前面补0，那么字符A的Unicode表示就是U+0041，依次类推B的Unicode表示就是U+0042...等等，汉字"爱"的字符表示是“U+7231”

常见的编码方式有 UTF-8 , UTF-16 , GB2312 , GBK，它们都只是一种编码方式，每种编码有自己的规则。

UTF-8是一种非常通用的 可变长 字符编码方式，范围由1-4个字节不等。

UTF-16通常由2字节或者4字节表示一个字符，U+000~U+FFFF的范围内用2个字节表示。
U+10000~U+10FFFF的范围内用4个字节表示。

GB2312，每个汉字及符号以两个字节来表示，兼容ASCII码，GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312也收录了许多其他语音的文字及符号。它所收录的汉字已经覆盖中国大陆99.75%的使用频率，对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来 GBK 及GB 18030汉字字符集的出现。

GBK 向下与 GB 2312 编码兼容，向上支持 ISO 10646.1 国际标准，是前者向后者过渡过程中的一个承上启下的产物。GBK编码，是在 GB2312-80 标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容 GB2312-80 标准

在JavaScript中，所有的string类型都是使用UTF-16编码的，形如 '\u00A9' 或者 '\uD87E\uDC04' ，详情参考MDN文档 Lexical_grammar 。

所以JS中，将字符转换成Unicode如下：

用通信理论的思路可以理解为:
unicode是信源编码，对字符集数字化。
utf-8是信道编码，为更好的存储和传输。

一个很简单的例子：
一个用GBK编码的文件，我如果以UTF-8来解码的话，打开就会是一片乱码。
再比如：

当然mata也可能会失效，如图

参考
Unicode中UTF-8与UTF-16编码详解
UTF-8与Unicode的区别
GB2312编码表
gb2312中的英文字母占几个字节？
漫画：什么是字符集和编码？ASCII、UTF-8、UTF-16、UTF-32 又是什么？
解决GB2312、GBK、UTF-8转换问题
Unicode和UTF编码转换

已赞过 已踩过<

评论收起

上海巴鲁图工程机械科技有限公司_
2022-05-15 广告

增量编码器一般输出信号是两路正交脉冲信号和一路参考信号,之所以叫增量是因为它的位置信号是通过对脉冲计数累加得到,依靠计数设备的内部记忆来记住位置,并且同每圈输出的参考信号来清除累计误差. 缺点就是断电后,需要重新寻找初始位置. 例如打印机扫... 点击进入详情页

本回答由上海巴鲁图工程机械科技有限公司_提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

代码应用—领先的安卓Apk修改工具

轻松修改安卓应用名称和图标、定制软件的功能和界面、并将apk转成AS源代码项目。通过加固和混淆的方式让应用过白不报毒，还能将网页打包成各种手机平台的应用。

www.apkeditor.cn广告

Unicode与编码方式

您可能关注的内容

其他类似问题

为你推荐：