机器学习第二练---波士顿房价预测

机器学习第二练---波士顿房价预测

环境仍然是Jupyter Notebook, py2.7，至今没发现拿python做数据分析，有比这个笔记本更好用的工具。

此篇文章呢，主要是通过一个小的机器学习的项目，来说明一下，相关的大概步骤和所涉及到各种概念。

原始数据：有如下特点

波士顿房屋这些数据于1978年开始统计，共506个数据点，涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理：

1，异常的点的清除

2，无关特征的清除

数据操作这块主要通过Numpy和Pandas

数据展示这块主要是matplotlib和后台自定义的包visuals（仍然是基于matplotlib）

第一步操作，就是在读入housing.csv文件后，统计一下价格的最小值、最大值、均值、中值和标准差，后期做数据分析的时候，其实用到这几个统计值。

这里实现呢，本身python是自带统计函数的，但是，这里使用numpy相关的函数处理，理论上速度应该更快一些。

可以这样认为，numpy包是基于python做的优化，而pandas是基于numpy做的优化。

其他数据特征含义，可参考下图：

第二步操作，开始建模准备

选用R^2, 也就是决定系数作为模型的评测函数，一看这意思，就是要用回归分析来进行预测啦，因为决定系数，就是回归分析中最经常用的评价指标，

比如，回归系数是否显著，调整后的R平方（调整后的R2平方，及调整后的决定系数，若R2平方为）0.60，可解释为自变量的变异解释了因变量变异的60%，R2平方取值范围为0-1，越大代表回归方程对因变量的解释程度越大）

R^2的0表示从变量不能预测因变量.
R^2的1表示从自变量可以无误差地预测因变量。

所谓的拟合程度，就是指模型本身预测的准确程度，欠拟合，说明预测的太烂，过拟合，说明模型本身对数据太敏感，只是在训练数据上得分高，但是一旦超过那个数据的范围，使用新数据的话，预测准确性就会往下掉。

第三步，做数据切割

主要目的就是为了分为训练数据和测试数据，主要是用到了sklearn中model_selection这个包，然后用到train_test_split，

这个方法主要目的，就是随机生成的参数都比较好理解，

只是，random_state这个参数需要认真学习一下，这个东东叫随机数种子，我们做一个小测试，下面我们在使用train_test_split方法的时候设置这个参数，比如设置为0，当然也可以设置成1，2或者其他整数。

大家看到每次在进行分割的时候，他所分成的数组的结构是一样的。那么如果我不设置这个参数呢，

所以，当你相重复你之前的分割组的时候，你需要设置 random_state,不然它就会随机生成其他的数组结构，不一样的数组结构可能就会引发新的问题。所以舍不设置这个参数主要看你的需求。

把数据分割成训练集和测试集的目的，提升模型的泛化能力是一个目的。泛化能力，跟刚才的过拟合有点观点，就是希望模型本身能同样对新数据有较高的预测能力。

第四步，通过学习曲线和验证曲线来分析模型的来对算法进行诊断

下面是不同深度的决策树回归算法生成的学习曲线：

学习曲线是用来干嘛的？书上说它是用来判断算法究竟是过拟合还是欠拟合，

过拟合前面提到过，对数据本身依赖行过强，泛化能力较差。可以认为是模型的问题，可能就是模型本身太复杂（相对于训练集），参数太多。

一般说这种模型偏差较高，解决方法是增大训练集，但现实一般不容易做到。

欠拟合是说模型预测的能力太差，评测函数打的分太低，这有可能是数据本身比较复杂，但模型比较简单造成的

一般说这种模型偏差较高，解决方法是构建更多特征，减少正则项。

上面四个图中，从max-depth=6 开始，方差就增大了。而max-depth=1，很显然偏差比较大。

怎么解决呢？或者说怎么找最佳的深度值呢？通过验证曲线：下图

yanz

、

验证曲线，主要展示的是不同深度所对应的分数，这里的分数仍然是决定系数。通过观察，可以发觉在深度为3的时候应该是个最佳点。这个max-depth也可以认为是最优参数

（未完待续）

，
相关阅读:
MySQL的max()函数使用时遇到的小问题
 scp命令需要指定端口时要紧跟在scp后
 linux系统之间基于密钥对免输入密码登陆
 c++的引用用法
 预测模型
 mysql出现ERROR 1366 (HY000):的解决办法
 R语言可视化--颜色
 R语言可视化--ggplot函数
 R语言可视化--qplot函数
 R语言可视化二
原文地址：https://www.cnblogs.com/miningbw/p/6858883.html