二进制文件和文本文件到底有什么不同？

 我来答

1个回答

#热议# 生活中有哪些实用的心理学知识？

华源网络
2022-07-02 · TA获得超过5582个赞

知道小有建树答主

回答量：2486

采纳率：100%

帮助的人：145万

我也去答题访问个人页

关注

展开全部

首先，可以说两者是相同的。因为对于存储在硬盘上的文件来说：都要用二进制的方式来存储的。

从这个意义上说，两者是相同的。

对二进制文件进行的加密、解密方法同样适用于文本文件。

如果说两者完全相同，那又不尽然。因为你用文本编辑器打开一个二进制文件的时候，多半会看到乱码，而打开文本文件，就不会看到乱码。这个实践表明，这两者是不同的。

那么为什么会这样呢？因为文本文件是二进制文件的一个子集。不光文本文件，一切其它格式的文件都是二进制文件的子集。例如jpg,avi,ppt,exe等文件也都是二进制文件的子集。

二进制文件可以作为计算机中所有文件的统称。

文件存储的时候，字节是最小的单元。一个字节可以存储0到255这256个数字。

某些数字在文本编辑器中，可以呈现为英文字符，例如：数字 97 就显示为英文的小写字母 a 。

文本文件只存储可见的字符。在只有英文的Ascii码文本文件中，每个字符的数值都不会大于 127 ，也不会等于127，除了数字 13 表示的回车，数字 10 表示的换行，数字9表示Tab缩进，其他的字符数值都大于32，数值32显示为空格。

二进制文件中有许多不可见的字符。所谓的不可见是：在普通的文本编辑器中没有定义该字符的显示方式。

当使用GB2312的汉字编码以后，用相邻的两个字节表示一个汉字。原本不可见的字符变的可见了。这时候，文本文件中的字节有许多高位置1，大致上使用了0到255中的每一个数。为什么说大致呢？因为你去查GB2312的码表，会发现每个区FF的位置都是空着的，也就是不使用数字255。这是为什么呢？

数字255在某些情况下也是-1，这个数字可以看作文本文件的禁区。也就是说，二进制文件中，每个字节都可以在0到255之间任意的挑选;文本文件的字节则不能使用数字255。

GB2312码表0的位置也是空出来的，这是为什么呢？

答案是：为了能兼容传统的c语言程序。

如果c语言程序在处理一个字符串，遇到了0，那么程序认为字符串结束了。所以，文本文件的字节中不能使用数字0，以避免程序处理到一半就终止了。

而数字255更是不能出现的，255在表示有符号的char时，就是-1，在c语言中定义为EOF(End Of File)。也就是说，某些传统的c语言程序，例如getchar( )在返回-1的时候，程序员就认为该文件结束了。所以，这个数字不能出现在文本文件的内容中。

传统意义上，文本文件有禁区，最初的0和最终的255，是文本文件的禁区。

所有不可见的Ascii码也是禁区。

而二进制文件没有任何约束。

各种对文本文件的编码方式，都会尽量避免打破这个禁区。但在Unicode定义以后，这个禁区被打破了。Unicode定义了BOM，也就是在文本文件的开头加入几个不可见的字节，来表示这个文件的编码方式。

从这以后，文本文件中就可以存储不可见的字符了，不再是那么纯粹的文本文件。UTF-8编码的文件本来可以不使用BOM的，但微软也为它设计了BOM,这是一个字符，编码是(Unicode FEFF)，转化为UTF8形式以后是（EF BB BF)。

尽管打破了禁区，但只限定于文件开头的两三个字节。

这可以看作一种黑客的解决问题方式，不优雅，也不美观。因为黑客有办法在文本文件中插入更多的不可见字符，普通人不知道如何操作。

有了 BOM以后,出现了字节FF，这意味着数字255不再是禁区。虽然不显示出来，但是它像一根针，插入文本文件的开头。

但有了UTF-16编码以后，禁区彻底打破了，文本文件的编码如果按照UTF-16的方式存储，除了开头有BOM以外，所有不可见的ASCII码和扩展Ascii码都可以成为某个字符的一部分。也就是说，没有任何禁区。文本文件中可以存储任何数值的字节。

文本文件可以在文本编辑器中显示，二进制文件可以在二进制编辑器中显示。没有什么东西不能显示。

所以，如果再问文本文件和二进制文件的区别是什么，答案就是：

没有区别。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

二进制文件和文本文件到底有什么不同？

为你推荐：