1、我们第一个（极小的）机器学习应用【准备数据】

1、我们第一个（极小的）机器学习应用【准备数据】
- FROM:Building Machine Learning Systems with Python（机器学习系统设计）
- 环境：windows、Python2.7（或以上）、IPython （其实用spyder最好）
- 模块：NumPy、SciPy、Matplotlib
- 数据源：web_traffic.tsv（怎么上传文件？）
数据介绍：某网站连续743个小时，每小时网站的访问次数。可以理解为（743行，2列）的二维数组，x代表连续的小时数，y代表每小时的访问次数。（其实这个文件里面的数据并不是从真实的网站上导出的#^_^#，而是作者用程序生成的，书的附件中有源码）。

我们先采用交互的方式（在IPython中）分析，然后再写到程序文件当中，最后再按照作者源程序的思路优化程序。

一、读取数据（使用SciPy中的genfromtxt()函数，文件中的数据是以Tab字符分割的数字）
```
1 import scipy as sp
2 data=sp.genfromtxt("web_traffic.tsv",delimiter="	")
```
　　注意：1、web_traffic.tsv文件需在当前目录下（如果你很想按照书中的源代码那样，用os.path获取其绝对路径，就请忽视这条，绝对路径的好处就是不容易出错，例如在spyder中只能用绝对路径）；

　　　　2、数组data中含有无效数据，是因为sp.genfromtxt()得到的是数值，如果源文件含有字符（串）会自动替换为“nan”（Not a Number）

二、预处理和清除无效数据

　　1、将二维数组data拆分为两个一维数组，或者说是拆成两列也可以。　
```
1 x=data[:,0]　#x等于第0列的所有行的数
2 y=data[:,1]　#y等于第1列的所有行的数
```
　　注意冒号后面的逗号。

　　2、查看一下x，y中是否含有无效nan数据：
```
1 print(sp.isnan(x))
2 print(sp.isnan(y))
```
　　打印出的是一个bool型的数组（不是列表），如果其中含有True则说明有异常值，因此从输出结果中看x中没有，y中有，有几个？

1 sp.sum(sp.isnan(y))

　　有8个，还行，不算多如果大部分都是无效的数值说明这个数据源没法用。删除掉这8个值，注意x中也要对应删除，不能只删除y中的，怎么删？
```
1 x=x[~sp.isnan(y)]
2 y=y[~sp.isnan(y)]
```
　　可以检查一下：
```
1 print(sp.isnan(y))  
2 len(x)
```
　　原来是743个，是少了8个，对着呢。

到此我们的数据就准备完成了，以后所有的操作都是依赖于这两组数据，x，y就不再变了。

为了方便以后使用可以将用到的代码放到文件当中，保存起来。
1 import scipy as sp 2 data=sp.genfromtxt("web_traffic.tsv",delimiter=" ") 3 x=data[:,0] 4 y=data[:,1] 5 x=x[~sp.isnan(y)] 6 y=y[~sp.isnan(y)]
first.py
以下是我的实际运行情况。
相关阅读:
QFramework Pro 开发日志（一）随便写点啥，3 月开始整活了。
QFramework Pro 开发日志（六）一键生成类图功能介绍
 QFramework Pro 开发日志（二）为啥要搞 Pro
乡亲们，我们创建了 Dapr 中文交流频道
 学大数据要考什么证书吗？2022软考备考群已成立！
元数据管理为什么需要统一的元模型？
美团外卖实时数仓方案整理
 巧用 Base62 解决字段太短的问题
 千万级支付对账系统怎么玩（下篇）？
千万级支付对账系统怎么玩（上篇）？
原文地址：https://www.cnblogs.com/wffett/p/4681626.html