缺失值处理与拉格朗日插值法
对于含有缺失值的数据集,如果通过删除小部分记录达到既定的目标,那么删除含有缺失值的记录的方法是最有效的。然而,这种方法也有很多问题,删除缺失值的同时也会损失一定的信息,对于那些数据集较小的来说这是影响很大的,同。所以可以对这些缺失值进行填充。
最简单插补方法及时 均值/中位数/众数插补法,对于需要插补的数据我们可以直接用该数值所对应的那一类属性的均值或者中位数或者众数进行插补。
也可以用最近邻插补法,可以在数据集中寻找与该样本除掉缺失属性最相近的样本,用相似的样本的属性值代替,求相似度可以采用聚类方法。
其次还有回归方法和插值法,回归方法及时建立回归模型,用已有的数据训练模型然后再预测。
插值法就有朗日插值法和牛顿插值法,这里就介绍一下拉格朗日插值法
根据数学知可知,对于平面上已知的n个点(无梁殿在一条直线上)可以找到一个n-1次多项式y=a0+a1x+a2x+....+an−1xn−1,使次多项式曲线过这n个点。
1)求已知的过n个点的n-1次多项式:
y=a0+a1x+a2x+....+an−1xn−1
将这n个点的坐标(x1,y1),(x2,y2),(xn,yn)
代入多项式函数,得
y1=a0+a1x1+a2x1+....+an−1x1n−1
y2=a0+a1x2+a2x2+....+an−1x2n−1
…
yn=a0+a1xn+a2xn+....+an−1xnn−1
就可以解出拉格朗日插值多项式
L(x)=i=1∑nyij=0,j�=i∏xi−xjx−xj
将缺失的函数值对应的x代入插值多项式得到缺失值的近似值L(x).