炼数成金数据分析课程---7、数据分析简介
一、总结
一句话总结:
我终于知道他们是要做一些什么样的工作了
1、我们导入了数据,是否可以立即进行数据分析?
需要对数据做预处理:比如去除脏数据这些
2、数据整理和预处理操作一般有哪些?
1、数据清洗
2、合并数据集
3、数据转换
4、重塑和轴向旋转
-数据清洗
-合并数据集
-数据转换
-重塑和轴向旋转
-字符串操作
-示例
3、数据清洗主要做哪些操作?
缺失值处理:比如删除记录、数据插补、不处理等方法
异常值处理:可以剔除,或者修改为正常值,或者影响小的话不处理
-删除记录
-数据插补——拉格朗日插值法、生顿插值法
-不处理
4、数据插补常用的方法有哪些?
均值/中位数/众数插补 根据属性值的类型,用该属性取值的平均数/中位数/众数进行插补
使用固定值 将缺失的属性值用一个常量替换。如广州一个工厂普通外来务工人员的“基本工资”属性的空缺值可以用2015年广州市普通外来务工人员工资标准1895元/月,该方法就是使用固定值
最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立
回归方法 拟合模型来预测缺失的属性值
均值/中位数/众数插补 根据属性值的类型,用该属性取值的平均数/中位数/众数进行插补
使用固定值 将缺失的属性值用一个常量替换。如广州一个工厂普通外来务工人员的“基本工资”属性的空缺值可以用2015年广州市普通外来务工人员工资标准1895元/月,该方法就是使用固定值
最近临插补 在记录中找到与缺失样本最接近的样本的该属性值插补对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立
回归方法 拟合模型来预测缺失的属性值
插值法 插值法是利用已知点建立合适的插值函数f(x)未知值由对应点x求出的函数值f(xi)近似代替
5、拉格朗日插值法的原理是什么?
多项式插值:构建多项式,使所有的点落在上面,然后缺失的值就在曲线上面找即可
6、牛顿插值法(有些python库不提供,因为和拉格朗日插值法的原理一样)的原理是什么?
也是多项式插值:原理和拉格朗日插值法一样,都是构造函数,然后在函数上面找点
更好的集成性,和易于变动节点:比拉格朗日插值法有更好的集成性,和易于变动节点的特点
7、拉格朗日插值法的实例?
餐厅月销量数据补全:一个餐厅的月销量数据,缺少了14号的,我们想要把14号的数据补全,直接用python调用函数填数据即可
使用特别简单:直接用python调用函数即可
8、如果我们有缺失值,但是我们不想处理,对我们后面的模型有什么要求?
需要缺失值不影响到后面模型的建模
9、数据清洗中异常值我们怎么处理?
可以剔除,或者修改为正常值,或者影响小的话不处理
10、数据清洗中的异常值对应机器学习中的那一部分内容?
噪点:就是为什么过度拟合不是太好的原因
11、数据分析中的数据集的合并我们怎么做?
用python的pandas库:还有左连接,右连接,内连接这些数据库操作
-Merge方法:根据一个或多个键将不同dataframe中的行合并
-Concat方法:沿一条轴将对多个对象堆叠起来
二、内容在总结中
1、相关知识
2、代码