浮点数为什么不精确?
最近在项目中遇到了浮点数相加结果显示异常的问题,如下图所示
理论上来说,d应该是等于0的,为什么结果和预期的不一样呢,所以抽空研究了一下float
浮点数的表示有一个 IEEE 的标准,它定义了两个基本的格式。
第一部分是一个符号位,用来表示是正数还是负数,用 s 来表示,所有的浮点数都是有符号的。
接下来是一个 8 个比特组成的指数位。一般用 e 来表示。8 个比特能够表示的整数空间,就是 0~255。我们在这里用 1~254 映射到 -126~127 这 254 个有正有负的数上。浮点数希望能够表示很小的数,所以指数位也会有负数。
最后,是一个 23 个比特组成的有效数位。我们用 f 来表示。综合科学计数法,我们的浮点数就可以表示成下面这样: (−1) s × 1.f × 2 e
s=0,e=2 −1 ,需要注意,e 表示从 -126 到 127 个,-1 是其中的第 126 个数,这里的 e 如果用整数表示,就是 2 6 + 2 5 + 2 4 + 2 3 + 2 2 + 2 1 = 126,1.f=1.0。
10进制小数转换为2进制的方法:乘2,然后取整(整数部分最大为1,最小为0),小数部分继续乘2,取整,直到小数部分0为止。
以0.1为例,转化如下
从第6行开始就会重复2~5行的运算,0.1就会变成一个无限循环的小数:0.000110011……,这里的0011无限循环。浮点数其实是用二进制的科学计数法来表示的,所以我们可以把小数点左移三位,这个数就变成了:1.10011001100110011…× 2 -4 。
这种科学计数法对应打上面的格式为:符号位 s = 0,对应的有效位 f=1001100110011…。因为 f 最长只有 23 位,那这里“0011”无限循环,最多到 23 位就截止了。于是,f=10011001100110011001100。对应的指数为 e,代表的应该是 -4。其对应的是123,转化成二进制就是 01111011。那么最终的二进制表示为:001111011 10011001100110011001100
现在再将二进制浮点数转化为十进制,结果为0.0999999940395
在讨论这个之前,先看一下浮点数如何相加。首先要把两个的指数位对齐,也就是把指数位都统一成两个其中较大的那个,那么指数位较小的数,需要进行有效位右移,在右移的过程中,最右侧的有效位就被丢弃掉了。这会导致对应的指数位较小的数,在加法发生之前,就丢失精度。如果两个数的指数位差出 23 位,较小的数右移 24 位之后,所有的有效位就都丢失了。这也就意味着,虽然浮点数可以表示上到 3.40×10 38 ,下到 1.17×10 −38 这样的数值范围。但是在实际计算的时候,只要两个数,差出 224,也就是 16777216倍,那这两个数相加之后,结果完全不会变化。如下图所示
参考文章:深入浅出计算机组成原理