计算机中整数的表示和运算
整数主要有两种编码方式。一种只能用来表示非负数,另一种能够表示负数、零和正数,对应着 C 语言中的无符号数和有符号数。而 Java 只支持有符号数。
无符号编码基于常规的二进制表示法。将一个 ω 位的位向量 看作二进制数,就得到了 的无符号表示。此处使用符号 表示将 ω 位的位向量根据无符号编码映射到非负整数,有:
例如:
根据以上公式可知 ω 位无符号编码的值范围为 。
很多情况下我们需要使用负数值,最常见的有符号数的计算机表示方式就是 补码(two's complement) 形式。补码编码中,将最高位解释为负权值。此处使用符号 表示将 ω 位的位向量 根据补码编码映射到整数,有:
例如:
ω 位补码的值范围为 。
C 语言中允许在不同的数字数据类型之间做强制类型转换,包括有符号数和无符号数之间。虽然 C 标准没有指定有符号数要使用某种表示,也没有精确规定有符号数和无符号数之间如何进行转换,但几乎所有机器都使用补码,同时大多数系统遵循的同等字长有符号数和无符号数之间的转换规则是:
我们使用一个例子进行说明:
C 语言中有符号数和无符号数之间的转换规则加上它的算术转换的性质可能会导致一些奇特的行为。如果一个表达式中既有无符号数也有有符号数,那么有符号数会被隐式转换为无符号数,这种行为对算术运算影响可能并不大,但对于 >、< 这些关系运算符来说,会导致一些非直观的结果,看一些例子:
上一个小节的例子中,我们使用 -2147483647 - 1 来表示 32 位补码能表示的最小值,再看一下 C 标准库头文件 limit.h 文件中定义的 和 :
这和 C 语言中对整型常量的实际类型的认定是有关的。整型常量的实际类型取决于长度、基数、后缀字母和 C 语言实现的确定的类型的表示精度。具体的规则如下表所示:
常量的数据类型是从上面表格里选择第一个最合适(能表示常量而不溢出的)的类型。另外,C 标准中规定整型常量以数字开头,前面可以包含指定基数的前缀。也就是说如果不发生溢出,整型常量的值总是非负数。如果前面出现负号,则是对整型常量使用的一元运算符,而不是整型常量的一部分。
2147483648 超出了 int 和 long 类型所能容纳的最大值,所以用 unsigned long 类型来容纳,前面的负号作为运算符对这个无符号数求反,结果依然是 unsigned long 类型。而 0xFFFFFFFF 则会使用 unsigned 类型容纳,求反后依然是 unsigned 类型。这也就是为什么 C 语言中定义 Tmin 不用 不用 -2147483648 或 0xFFFFFFFF 来表示的原因。
当不同字长的数据类型之间进行转换时,就会涉及到数字的扩展和截断,只需要遵守以下规则:
本篇文章主要主要是对整数在计算机中的存在形式以及一些类型转换和运算中的行为方式进行了总结,了解这些也是为了在写程序过程中做到有的放矢,避免一些由于数据类型导致的 bug 或者能够从位级行为上理解这些 bug 是如何产生的从而进行修复。之后我还会对浮点数、字符、字符串进行类似的总结,彻底理清楚计算机中信息的编码表示。
当然,本文没有涉及到整数加减乘除等运算的数学原理和位级行为,总体来说,计算机执行的整数运算是一种模运算形式。表示数字的有限字长限制了数据可能的值的取值范围,结果可能溢出。另外整数运算中,无论运算数是以无符号数还是补码形式表示的,都有完全一样或非常类似的位级行为。想要了解更多细节和原理,可以查阅《深入理解计算机系统》第三章节的内容。
“补码”,是计算机进行正负数计算时,唯一使用的“代码”。
原码和反码,都没有计算功能。因此,在计算机中,原码和反码根本就不存在。
所以,琢磨原码和反码,都是毫无意义的想法和做法。
其实,所谓的“补码”,它也并不是“什么码”,而是完全正常的数值。
计算机使用二进制数。 这些二进制数,既没有小数点,也不存在什么“符号位”。
八位数的范围是:0000 0000 ~ 1111 1111。 所以,这些数,都是正整数。
对应十进制数是:0 ~ 255。 计算机专业则称之为:无符号数。
两个八位二进制数相加,可能会出现进位。进位值则是:2^8 = 256。
随便找两个二进制数做加法,列出竖式如下:
图中的无符号数加法运算,就出现了进位(2^8 = 256)。
如果算上进位,和,就是 256 + 26 = 282,加法运算正确!
如果忽略(或舍弃)了进位,就是减去了 256,和,就只剩下 26 了。
那么,加上 255,再减 256,此时的加法,就变成了减法运算!
此时的运算结果,则是:27 - 1 = 26。 减法运算正确!
此时的“无符号数”255,就成为了“有符号数”的-1 !
于是,计算机专家就将 255 (1111 1111),称为:-1 的补码。
同理:254 (1111 1110),就是-2 的补码;
。。。 。。。
最后,128 (1000 0000),就是-128 的补码。
这就是说:255 ~ 128,在舍弃进位之后,它们就等于:-1 ~-128 !
计算机专业教材中给出了求负数补码的公式:[ X ]补 = 2^n + X。
这个公式,正是体现了上述的相等关系。
看清了吗?
“补码”就是这么来的。 与“原码反码取反加一”,毫无关系!
例如:-31 的八位补码,是什么?
解:[ -31 ]补 = 256 -31 = 225 = 1110 0001 (二进制)。 完事!
那么,127 还能不能当做负数呢? 不能!
因为,127 (0111 1111) 的最高位是 0。相加后,进位只能是 0。
即使舍弃进位 0,127,也不能表现出负数的特点。
所以,0 ~ 127,这 128 个无符号数,就只能当做它们自己了。
因此,计算机专业教材中零和正数补码的公式,就是:[ X ]补 = X。
-----------------------------
看明白上述介绍,就可以理解:
所谓的“补码”,本来都是正数。 而且,也都属于“无符号数”。
无符号的“补码”,能够当成负数使用,其根源就在于【舍弃进位】。
那么,利用“补码”当做“有符号数”做加减运算,与“无符号数”的加法,算法显然是完全相同的,都是逢二进一!
因此,“有符号数(补码)”、“无符号数”,就可以【共用同一个加法器】!
【舍弃了进位】,既统一了“两种算法(加减)”、又统一了“两种数据类型”。
因此,计算机,只需配置一个加法器,便可横行天下!
-----------------------------
原码和反码,都没有这些功能。
所以,计算机中,就无法使用原码和反码进行计算。甚至,都不保存它们。
老外的算术水平太洼了,弄不清楚进位的事。百般无奈,只好编造了:
“机器数真值有符号数符号位正零负零原码反码补码正数三码相同负数取反加一符号位不变模同余符号位也参加运算时针倒拨正拨 ... ”
这些,都是垃圾概念! 你就是把它们都背熟了、都会做了,也是啥用都没有的。
因为,所谓的“补码”,本来就是正常的数字,它根本就不是“什么码”!
当然,你如果能当上计算机老师,你就可以用这些,再去忽悠下一代学生。