最流行的4个机器学习数据集

最流行的4个机器学习数据集

最流行的4个机器学习数据集

字数887 阅读5012 评论5 喜欢21

机器学习算法需要作用于数据，而数据的本质则决定了应用的机器学习算法是否合适，而数据的质量也会决定算法表现的好坏程度。所以会研究数据，会分析数据很重要。本文作为学习研究数据系列博文的开篇，列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

数据集特征: 多变量 记录数: 150 领域: 生活

属性特征: 实数 属性数目: 4 捐赠日期 1988-07-01

相关应用: 分类 缺失值? 无 网站点击数: 563347

Adult

该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

数据集特征: 多变量 记录数: 48842 领域: 社会

属性特征: 类别型，整数 属性数目: 14 捐赠日期 1996-05-01

相关应用: 分类 缺失值? 有 网站点击数: 393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征: 多变量 记录数: 178 领域: 物理

属性特征: 整数，实数 属性数目: 13 捐赠日期 1991-07-01

相关应用: 分类 缺失值? 无 网站点击数: 337319

Car Evaluation

这是一个关于汽车测评的数据集，类别变量为汽车的测评，（unacc，ACC，good，vgood）分别代表（不可接受，可接受，好，非常好），而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low, med, high」。

数据集特征: 多变量 记录数: 1728 领域: N/A

属性特征: 类别型 属性数目: 6 捐赠日期 1997-06-01

相关应用: 分类 缺失值? 无 网站点击数: 272901

小结

通过比较以上4个数据集的差异，简单地总结：当需要试验较大量的数据时，我们可以想到「Adult」；当想研究变量之间的相关性时，我们可以选择变量值只为整数或实数的「Iris」和「Wine」；当想研究logistic回归时，我们可以选择类变量值只有两种的「Adult」；当想研究类别变量转换时，我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址：http://archive.ics.uci.edu/ml/
相关阅读:
ansible笔记（11）：初识ansible playbook（二）
Linux下查看占用CPU与内存最高的进程
 ansible笔记（10）：初识ansible playbook
AbpZero Http 模式下 Chrome浏览器因Cookie 不能登录
 Tomcat 8443&8080 并存
 接入腾讯cos文件存储
 安卓包打渠道标签
 java Android与PHP encode的区别
 thinkphp常用
 phalcon task任务
原文地址：https://www.cnblogs.com/anyview/p/5111217.html

数据集特征:	`多变量`	记录数:	`150`	领域:	`生活`
属性特征:	`实数`	属性数目:	`4`	捐赠日期	`1988-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`563347`

数据集特征:	`多变量`	记录数:	`48842`	领域:	`社会`
属性特征:	`类别型，整数`	属性数目:	`14`	捐赠日期	`1996-05-01`
相关应用:	`分类`	缺失值?	`有`	网站点击数:	`393977`

数据集特征:	`多变量`	记录数:	`178`	领域:	`物理`
属性特征:	`整数，实数`	属性数目:	`13`	捐赠日期	`1991-07-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`337319`

数据集特征:	`多变量`	记录数:	`1728`	领域:	`N/A`
属性特征:	`类别型`	属性数目:	`6`	捐赠日期	`1997-06-01`
相关应用:	`分类`	缺失值?	`无`	网站点击数:	`272901`

最流行的4个机器学习数据集

最流行的4个机器学习数据集

Iris

Adult

Wine

Car Evaluation

小结