在字符编码格式选项里UTF-8(无BOM）是什么意思呀？

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

惠企百科
2022-12-14 · 百度认证:北京惠企网络技术有限公司官方账号

惠企百科

惠企百科网是一家科普类综合网站，关注热门中文知识,集聚互联网精华中文知识,本着自由开放、分享价值的基本原则,向广大网友提供专业的中文知识平台。

向TA提问

关注

展开全部

BOM——ByteOrderMark，就是字节序标记

在UCS编码中有一个叫做”ZEROWIDTHNO-BREAKSPACE“的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。

UCS规范建议我们在传输字节流前，先传输字符”ZEROWIDTHNO-BREAKSPACE“。

如果接收者收到FEFF，就表明这个字节流是大字节序的；如果收到FFFE，就表明这个字节流是小字节序的。因此字符”ZEROWIDTHNO-BREAKSPACE“又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符”ZEROWIDTHNO-BREAKSPACE“的UTF-8编码是EFBBBF。所以如果接收者收到以EFBBBF开头的字节流，就知道这是UTF-8编码了。

在utf-8编码文件中BOM在文件头部，占用三个字节，用来标识该文件属于utf-8编码，现在已经有很多软件识别BOM头，但还是有些不能识别BOM头，比如PHP就不能识别BOM头，这也就是用记事本编辑utf-8编码的PHP文件后，就会报错的原因。

在windows环境下，用记事本打开任何一个文本文件，另存为utf-8格式后，这样文件就自动被加上了BOM头信息。可以很明显的看出，含BOM头的文件多出三个字节efbbbf。notepad++会自动添加为带Bom的utf8。

拓展资料：

UTF-8

UTF-8（8-bitUnicodeTransformationFormat）是一种针对Unicode的可变长度字符编码，又称万国码，由KenThompson于1992年创建。现在已经标准化为RFC3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言（如英文，日文，韩文）。

优缺点：

优点

UTF-8编码可以通过屏蔽位和移位操作快速读写。字符串比较时strcmp()和wcscmp()的返回结果相同，因此使排序变得更加容易。字节FF和FE在UTF-8编码中永远不会出现，因此他们可以用来表明UTF-16或UTF-32文本（见BOM）UTF-8是字节顺序无关的。它的字节顺序在所有系统中都是一样的，因此它实际上并不需要BOM。

缺点

你无法从UNICODE字符数判断出UTF-8文本的字节数，因为UTF-8是一种变长编码它需要用2个字节编码那些用扩展ASCII字符集只需1个字节的字符ISOLatin-1是UNICODE的子集，但不是UTF-8的子集8位字符的UTF-8编码会被email网关过滤，因为internet信息最初设计为7位ASCII码。因此产生了UTF-7编码。UTF-8在它的表示中使用值100xxxxx的几率超过50%，而现存的实现如ISO2022，4873，6429，和8859系统，会把它错认为是C1控制码。因此产生了UTF-7.5编码。

参考资料：

UFT-8-百度百科

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

商汤科技日日新·CoRaccoon-AI代码辅助生成

基于商汤大模型，让AI帮你写代码，支持100+语言与主流IDE，提升编程效率超50%。涵盖多场景，已助数万用户提升效率。点击立即体验!

www.sensetime.com广告