utf8与unicode的区别 到底是什么关系

对于java中编码,彻底晕了,图片上1:UTF-8(Unicode编辑)2:UTF-8(ASCII编辑)这两句话怎么理解。既然存储为UTF-8格式,怎么还用Unicode... 对于java中编码,彻底晕了,

图片上 1: UTF-8(Unicode编辑) 2: UTF-8(ASCII编辑) 这两句话怎么理解。既然存储为UTF-8格式,怎么还用Unicode编辑,搞不懂。
展开
 我来答
jamxval
2014-04-01 · TA获得超过6823个赞
知道大有可为答主
回答量:4308
采纳率:82%
帮助的人:1442万
展开全部

一个字符在内部表示成 unicode codepoint,对于单字节的字符来说,它就是 ASCII 码,对于多字节来说就很复杂的编码,它就是一个代码表,就像查字典,像我们以前的高考时填写的区位码,就是知道横纵坐标后就能查到值,这就是 unicode,但 unicode 本身是多字节支持的编码方案,由于多个字节在网络上传输或保存到磁盘上是按一个字节一个字节来保存的,这就存在先保存字节还是低字节的问题还有一个问题是一直使用字节数来编码字符还是变长字节来编码字节(比如为了兼容性,单字节依然是一个字节保存,其它常见自然语言的字符用双字节,很少见的冷僻字用多字节编码)这也需要让程序知道哪个字节是分隔点(哪几个字节凑在一起是一个字符),因此有多个编码成字节的方案,比如 UTF-8, UTF-16  之类的,UTF-8 就是变长字节方案,它们都是用一个方法来编码 unicode code point。

至于什么叫 UTF-8 (ASCII 编辑) 这可能你得自己试一下,编辑保存之后,用notepad 打开或 java  FileInputStream 按字节读取来观察一下它与 Unicode 编辑有什么不同。Windows 上的 notepad 记事本本身只支持 ANSI,也就是 ASCII 编辑,就是说把内部编码直接当成 ASCII 字节,不对字节做任何转换编码处理,所以当两个汉字4个字节放在一起,我通过程序删除第2个字节的话,你会发现全成了乱码,因为程序会假设 1 + 3 凑在一起是一个汉字,最后一个4单独成一个汉字,所以都是错误的。而 UTF-8 之类的有一套编码规则,或许能推测出这个数据本身有错误,当通过网络传输时我们就能识别出传输过程中是否有错误发生。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式