Unicode与编码方式

 我来答

1个回答

#热议# 不吃早饭真的会得胆结石吗？

青柠姑娘17
2022-06-23 · TA获得超过1.2万个赞

知道大有可为答主

回答量：6099

采纳率：100%

帮助的人：32.4万

我也去答题访问个人页

关注

展开全部

Unicode可以表示世界上的每一个字符，每一个字符都有相应并且唯一的二进制编码。Unicode是一种字符集，让几乎所有语言中的每个字符都和一个 唯一数字 对应起来。

https://unicode-table.com/cn/4F60/

Unicode 是为了解决传统的字符编码方案的局限而产生的， 它为每种语言中的每个字符设定了统一并且唯一的二进制编码 ，以满足跨语言、跨平台进行文本转换、处理的要求。也就是说世界上的任意一个字符，无论何种语言，都能在Unicode字符集中找到其对应的二进制编码。

Unicode的表现方式是U+XXXXXX，X代表一位十六进制数，可以有4-6位，不足 4 位前补 0 补足 4 位，超过则按是几位就是几位。

字符A的ASCII码是65，将65转换成16进制就是41（16×4+（16^0)×1 = 65）,按照规则前面补0，那么字符A的Unicode表示就是U+0041，依次类推B的Unicode表示就是U+0042...等等，汉字"爱"的字符表示是“U+7231”

常见的编码方式有 UTF-8 , UTF-16 , GB2312 , GBK，它们都只是一种编码方式，每种编码有自己的规则。

UTF-8是一种非常通用的 可变长 字符编码方式，范围由1-4个字节不等。

UTF-16通常由2字节或者4字节表示一个字符，U+000~U+FFFF的范围内用2个字节表示。
U+10000~U+10FFFF的范围内用4个字节表示。

GB2312，每个汉字及符号以两个字节来表示，兼容ASCII码，GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312也收录了许多其他语音的文字及符号。它所收录的汉字已经覆盖中国大陆99.75%的使用频率，对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来 GBK 及GB 18030汉字字符集的出现。

GBK 向下与 GB 2312 编码兼容，向上支持 ISO 10646.1 国际标准，是前者向后者过渡过程中的一个承上启下的产物。GBK编码，是在 GB2312-80 标准基础上的内码扩展规范，使用了双字节编码方案，其编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，完全兼容 GB2312-80 标准

在JavaScript中，所有的string类型都是使用UTF-16编码的，形如 '\u00A9' 或者 '\uD87E\uDC04' ，详情参考MDN文档 Lexical_grammar 。

所以JS中，将字符转换成Unicode如下：

用通信理论的思路可以理解为:
unicode是信源编码，对字符集数字化。
utf-8是信道编码，为更好的存储和传输。

一个很简单的例子：
一个用GBK编码的文件，我如果以UTF-8来解码的话，打开就会是一片乱码。
再比如：

当然mata也可能会失效，如图

参考
Unicode中UTF-8与UTF-16编码详解
UTF-8与Unicode的区别
GB2312编码表
gb2312中的英文字母占几个字节？
漫画：什么是字符集和编码？ASCII、UTF-8、UTF-16、UTF-32 又是什么？
解决GB2312、GBK、UTF-8转换问题
Unicode和UTF编码转换

已赞过 已踩过<

评论收起

意法半导体(中国)投资有限公司
2023-06-12 广告

STM32F103C8T6是一款基于ARM Cortex-M3内核的微控制器，具有以下基本参数：1. 工作频率：72MHz2. 外部时钟：最高可达120MHz3. 存储器容量：64K bytes4. 数据总线宽度：32位5. 输入/输出端口... 点击进入详情页

本回答由意法半导体(中国)投资有限公司提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

数字代码_法本信息-面向全球的IT综合服务上市企业

www.farben.com.cn

Unicode与编码方式

您可能关注的内容

为你推荐：