机器学习：数据清洗及工具OpenRefine

　　数据分析中，首先要进行数据清洗，才可以继续训练模型，预测等操作。

　　首先介绍一下什么是数据清洗（定义来自百度百科，有删减）

　　数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

　　残缺数据：通过算法KNN,回归，判定树分析，填补上残缺的数据。

　　错误数据：主要是噪声数据。通过聚类，回归，分箱等手段剔除孤立点；还可以通过数据特征分布，剔除脱离分布的噪声数据。

　　重复数据：剔除相似度大于阈值的数据。

　　下面就介绍一款数据清洗的工具OpenRefine

OpenRefine 下载地址：　　https://github.com/OpenRefine/OpenRefine

OpenRefine 教程下载地址：　　 http://download.csdn.net/detail/gattaca2011/6940325

转置请注明出处：http://www.cnblogs.com/rongyux/

后续更新中。。。

相关阅读:
两个不同于LR和jmeter的性能测试工具
一个基于集成jenkins的测试平台
sparkR原理
Python 出现需要使用fPIC重新编译的问题
eclipse中使用jython
R中逻辑运算
R语言的一些笔记
Distributed R
R语言和大数据
Mysql command line

原文地址：https://www.cnblogs.com/rongyux/p/5378302.html