1. 定点数表示的基础:Q值。Q值就是小数点的位置。
16位整形数表示小数
32位整形数表示小数
2. 将浮点加减法转化为定点加减法最重要的是必须保持两个操作数的Q值一致。如果两者不一致,一般地,为了保证数的精度,在运算前将Q值小的数调整为与Q值大的数的Q值,同时必须注意是否溢出。
设x的Q值为QX,y的Q值为Qy,加法/减法结果z的定标值为Qz,则
z=x+y
zq*2^(- Qz) = xq*2^(- Qx) + yq*2^(- Qy)
= xq*2^(- Qx) + yq*2^(Qx – Qy) *2^(- Qx)
=[ xq+ yq*2^(Qx – Qy) ] *2^(- Qx)
zq=[ xq+ yq*2^(Qx – Qy) ] *2 ^(Qz - Qx)
定点加法可以描述为:
int x,y,z;
long temp;
temp=y<<( QX - Qy);
temp=x+temp;
if (QX>=Qz)
z=(int)(temp>>( QX – Qz));
else
z=(int)(temp<<( Qz – Qx));