3.1 表格类数据

表格中的数据，一般来说每一列是不同类的。而tensor中的数据，是同类的。所以我们先来学习把现实世界中不同类的数据，编码为tensor中的同类数据。

网络上有大量免费的表格数据可供下载，例如 https://github.com/caesar0301/awesome-public-data sets

我们使用一个有趣的葡萄酒的表格数据：https://archive.ics.uci.edu/ml/machine-learning-databases/winequality/winequality-white.csv.

该数据集有12列，前11列是酒的化学物质属性的值，最后一列是对酒品质的评分，0分最差，10分最好。

11个化学属性分别是：

一个可能的机器学习任务是：找出酒的品质评分与化学物质之间的关系。比如，我们可能看到随着漂浮物的减少，酒的品质在增加。

我们使用Numpy来处理CSV文件

然后我们检查以下数据是否完整

之后我们把Numpy数组转成tensor

我们把数据和评分拆分开

对评分的处理方式有两种，一是把评分当作连续的数据，则是一个回归问题。或者是把评分当作标签，则是一个分类问题。

如果把评分看作标签，我们又有两种处理方式

　　如果标签是string类型的，我们把每一个标签分配一个数字，就可以用同样的方法处理了。

对评分进行one-hot编码
- 　　即把这个10以内的分数，编码为长度为10 的向量，向量中对应分数中的元素设置为1，其他元素设置为0.比如1对应[1,0,0,0,0,0,0,0,0,0,0].3对应[0,0,3,0,0,0,0,0,0,0

　　我们可以使用 scatter_方法来实对tensor的one-hot编码

　　scatter_的三个参数分别是：

第二个参数是索引tensor，表示scatter的索引。需要跟被scatter的tensor维度一致。所以我们使用 unsqueeze方法，对 target tensor扩展一个维度。

原文地址：https://www.cnblogs.com/superxuezhazha/p/13410601.html