十进制浮点数转换成IEEE754标准的32浮点数的二进制格式

十进制浮点数转换成IEEE754标准的32浮点数的二进制格式

参考：

http://jimmygod.blog.163.com/blog/static/43511339200792605627411/

http://blog.csdn.net/archersaber39/article/details/51422602

-------------------------------------------------------------------------------

我两年前就知道不应该用==号来判断浮点数的相等了,因为存在一个精度的问题,但是一直以来,都没怎么在乎这些东西,而实际上,我对于浮点数的结构,虽然了解,但并不清晰. 作为一个C++爱好者,应该尽量搞清楚每一个问题,所以我搞清楚了浮点数的内在表示及实现.在没有大问题的情况下,一切以易于理解和记忆为标准.

首先说一下原,反,补,移码. 移码其实就等于补码,只是符号相反. 对于正数而言,原,反,补码都一样, 对负数而言,反码除符号位外,在原码的基础上按位取反,补码则在反码的基础之上,在其最低位上加1,要求移码时,仍然是先求补码,再改符号.

浮点数分为float和double,分别占4,8个字节,即32,64位. 我仅以32位的float为例,并附带说double.

在IEEE754标准中,规定,float的32位这样分:

符号位(S)

1

阶码(E)

8

尾数(M)

23

这里应该注意三点:   A,阶码是用移码表示的,这里会有一个127的偏移量,它的127相当于0,小于127时为负,大于127时为正,比如:10000001表示指数为129-127=2,表示真值为2^2,而01111110则表示2^(-1).

                                     B, 尾数全都是小数点后面的数,

                                     C, 但尾数中省略了一个1,因此尾数全为0时,也是1.0...00;

接下来只要说明几个问题就明白了,以123.456为例,表示为二进制就是:N (2) = 1111011. 01110100101111001 ,这里,会右移6位,得到N (2) = 1.111011 01110100101111001*2^6; 这种形式就可以用于上图中的表示格式了.

符号位(S)

          0

阶码(E) 00000110

尾数(M) 11101101110100101111001

注意到,上面的阶码第一位为0表正,尾数比N(2)表示的第一位少了个1,这就是上面说的默认为第一位为1. 由于在将十进制转为二进制的过程中,常常不能正好转得相等, (当然,像4.0这样的就不会有损失,而1.0/3.0这样的必然损失),所以就产生了浮点数的精度问题, 实际上,小数点后的23位二进制数,能影响的十进制数的前8位,这是为什么呢?一般人在这时往往迷迷胡胡了,其实很简单,在上面表示的尾数中,是二进制的,小数点后有23位,最后一位的值为1时,它就是1/2^22=0.000000238实际取的时候肯定是0.0000002,也就是说,对于一个float型的浮点数,其有效的位数是从左到右数7位(包括缺省的1才是7位),当到达上面这个第8位时,就不可靠了,但我们的VC6可以输出最长的1.0/3.0为0.33333333333333331,这主要是编译器的问题了, 而并不是说浮点数小数点后的16位都有效. 如果不信的话,可以去试一下double类型的1.0/3.0, 得到的也将是小数点后17位.

--------------------------------------

将20.163转换成754标准的32位浮点数

1.将十进制数转换成二进制数

十进制浮点数，整数部分转换成二进制，采用除2取余法，将余数从低到高排列，即为整数的二进制数；

小数部分转换成二进制，采用乘2取整法，将取整数顺序排列，即为小数的二进制数。

小数部分乘2直到小数部分为0，或取到想要的位数，或循环出现前。

整数部分

20/2=10 .... 0

10/2=5 .... 0

5/2=2 .... 1

2/2=1 .... 0

1/2=0 ..... 1

小数部分

0.163*2=0.326 0

0.326*2=0.652 0

0.652*2=1.304 1

0.304*2=0.608 0

0.608*2=1.216 1

0.216*2=0.432 0

0.432*2=0.864 0

0.864*2=1.728 1

0.728*2=1.456 1

0.456*2=0.912 0

不要求精度时，通常取到8~10位

20.163=10100.0010100110

2.移动小数点到第1、2位之间，得e的值

10100.0010100110=1.01000010100110 *2的4次方 e=4（小数点移动4位）

3.求出S、E、M的值

S=0，E=4+127=131，M=01000010100110

S由小数点的后一位可以看出，0为正数，1为负数。

0 1000001 01000010100110000000000

IEEE754标准中32位浮点数表示

S E M

S是符号位占1位，E是阶码占8位，M是尾数占23位。

当尾数的值不为0时，尾数的最高有效位应为1，这称为浮点数的规格化表示

这样形式的叫规格化

新手初学，有问题或者错误，麻烦评论下留言指正，谢谢
相关阅读:
Java8IntStream数值流的常用操作以及与装箱和拆箱的关系
 iOS滚动回弹修复方案
 ios Safari 不兼容问题 transform rotateY
typescript的?? 和?: 和?.是什么意思？还有!:
原生js解决ios手机input输入框弹出覆盖问题
 requestIdleCallback和requestAnimationFrame的区别
 axios的兼容性问题
 第三方直播SDK对比（腾讯云，阿里云，网易云信，七牛云，金山云，声网，即构科技）
直播平台对比
 react中实现路由缓存和组件缓存
原文地址：https://www.cnblogs.com/oxspirt/p/7234024.html