当由一堆存在误差的数据样本恢复数据模型时,通常最简单的线性回归方法是最小二乘,然而当数据样本中的误差数据的误差值和其所占比例比较大时,最小二乘得出的结果往往不如人意,RANSAC算法(随机抽样一致性算法)利用迭代来解决这个问题。
定义:
1. 称适应模型的点为“局内点”(inliers),相对的为“局外点”,数据集有“局内点”、“局外点”和噪声组成
2. 模型可以由一些参数来描述
3. 假设从数据集中给定一个很小的子集就可以存在一个模型,该模型适用于该子集内的所有点。
RANSAC算法原理:
1. 有一个模型适应于假设的局内点,即所有的未知参数都能从假设的局内点计算得出。
2. 用1中得到的模型去测试所有的其它数据,如果某个点适用于估计的模型,认为它也是局内点。
3. 如果有足够多的点被归类为假设的局内点,那么估计的模型就足够合理。然后,用所有假设的局内点去重新估计模型(譬如使用最小二乘法),因为它仅仅被初始的假设局内点估计过。
4. 最后,通过估计局内点与模型的错误率来评估模型。
上述过程被重复执行固定的次数,每次产生的模型要么因为局内点太少而被舍弃,要么因为比现有的模型更好而被选用。
一个图示的例子更好的说明问题: