15个免费数据集-数据科学项目
如果您曾经参与过个人数据科学项目,那么您可能已经花了很多时间在互联网上搜索有趣的数据集进行分析。
筛选数十个数据集以找到最适合的数据集可能很有趣,但下载和导入多个 CSV 文件也可能令人沮丧,结果发现数据只是丢失,没有那么有趣。 幸运的是,有一些在线存储库可以保存数据集并(大部分)删除无趣的数据集。在本文中,我们将研究不同类型的数据科学项目,包括数据可视化项目、数据清理项目和机器学习项目,并确定为每个项目查找数据集的正确位置。无论您是想通过展示您可以很好地可视化数据来加强您的数据科学投资组合,还是如果您有几个小时的空闲时间并想练习您的机器学习技能,我们都能满足您的需求。
数据可视化项目的数据集
一个典型的数据可视化项目可能类似于“我想创建一个关于美国不同州收入变化的信息图”。
在为数据可视化项目寻找好的数据集时,需要牢记以下几点:
这不应该很复杂,因为您不想花费大量时间清理数据。
它必须足够细致和有趣才能制作图形。
理想情况下,每一列都应该得到很好的解释,以便显示准确。
数据集不应该有太多的行或列,所以它很容易使用。
为数据可视化项目寻找好的数据集的好地方是发布自己数据的新闻网站。
他们通常会为您清理数据,并且已经创建了一些您可以复制或改进的图表。
1. Newsdata.io(新闻数据集)
如果您对历史新闻数据集感兴趣,Newsdata.io 是一个很好的平台,因为它们还提供用于突发新闻和历史新闻的新闻 API。因此,他们每天都在收集新闻数据。在您请求实际历史新闻数据集之前,他们还提供免费数据样本。
2. FiveThirtyEight
FiveThirtyEight 是一个非常受欢迎的互动新闻和体育网站,由 Nate Silver 推出。
他们撰写了有趣的数据驱动文章,例如“不要将缺乏生产员工的技能归咎于缺乏技能”和“2016 年 NFL 预测”。
FiveThirtyEight 使他们文章中使用的数据集可以在 Github 上在线获得。
3. BuzzFeed
BuzzFeed 最初是提供低质量文章,但后来不断发展,现在撰写调查文章,例如“统治世界的法庭”和“Deonte Hoard 的短暂一生”。
BuzzFeed 将其文章中使用的数据集提供在 Github 上。
4. Socrata 开放数据
Socrata OpenData 是一个包含多个自己的数据集的门户,这些数据集可以在浏览器中查看或下载查看。很大一部分数据来自美国政府来源,其中许多已经过时。
您无需注册即可从 OpenData 浏览和下载数据。您还可以使用视图和导航工具在浏览器中浏览数据。
数据处理项目的数据集
有时您只想处理大量数据。最终结果不如读取和分析数据的过程重要。
您可以使用 Spark 或 Hadoop 等工具在多个节点之间分配处理。在寻找用于数据处理的良好数据集时,请记住:
数据越干净越好——清理大型数据集可能需要很长时间。
数据集应该很有趣。
数据应该可以回答一个有趣的问题。
像亚马逊和谷歌这样的云托管服务提供商是寻找大型公共数据集的好地方。他们被激励托管数据集,因为他们使用他们的基础设施进行分析(并且他们为此付费)。
5. AWS 公共数据集AWS Public Data Sets
亚马逊在其亚马逊网络服务平台上提供大型数据集。您可以下载数据并在您的计算机上使用它,或者通过 EMR 使用 EC2 和 Hadoop 分析云中的数据。您可以在此处阅读有关该程序如何工作的更多信息。
亚马逊有一个页面列出了所有要浏览的数据集。您将需要一个 AWS 账户,尽管 Amazon 确实为您提供了新账户的免费访问权限,让您可以免费探索数据。
6. 谷歌公共数据集Google Public Data Sets
就像亚马逊一样,谷歌也提供云托管服务,称为谷歌云平台。借助 GCP,您可以使用名为 BigQuery 的工具来探索大量数据。
Google 列出了页面上的所有数据集。您需要创建一个 GCP 帐户,但您提出的第一个 1TB 请求是免费的。
7. 维基百科Wikipedia
维基百科是一个免费的、在线的、社区编辑的百科全书。维基百科包含惊人的知识,从哈布斯堡王朝的奥斯曼战争到伦纳德·尼莫伊,都有页面。
作为维基百科对知识进步承诺的一部分,他们免费提供所有内容,并定期生成网站上所有文章的转储。此外,维基百科提供了更改和活动的历史记录,因此您可以跟踪某个主题页面在一段时间内的进度,并了解谁对此做出了贡献。
您可以在 Wikipedia 站点上找到下载数据的不同方法。您还将找到以各种方式重新格式化数据的脚本。
机器学习项目的数据集
在处理机器学习项目时,您希望能够从数据集中的其他列中预测一列。为此,我们需要确保:
数据集并不太复杂——如果是,我们将花费所有时间来清理数据。
有一个有趣的目标列可用于进行预测。
其他变量对目标列有一定的解释力。
有用于机器学习的特定数据集的在线存储库。这些数据集通常会提前清理,并允许非常快速地测试算法。
8. Kaggle
Kaggle 是一个举办机器学习竞赛的数据科学社区。外部提供的站点上有各种有趣的数据集。 Kaggle 提供现场和历史比赛。
您可以下载两者的数据,但您必须在 Kaggle 注册并同意比赛的使用条款。
您可以通过参加比赛来下载 Kaggle 数据。每个比赛都有自己的关联数据集。在新的 Kaggle 数据集产品中还有用户提供的数据集。
9. UCI 机器学习库
UCI 机器学习存储库是网络上最古老的数据集来源之一。虽然数据集是用户提供的,因此具有不同级别的文档和清理,但绝大多数都是干净的并且可以应用。
在寻找有趣的数据集时,UCI 是一个很好的第一站。
您可以直接从 UCI 机器学习存储库下载数据,无需注册。这些数据集往往很小,没有太多细微差别,但它们对机器学习很有用。
10.Quandl
Quandl 是经济和金融数据的存储库。其中一些信息是免费的,但有许多数据集需要购买。 Quandl 可用于创建模型来预测经济指标或股票价格。由于有大量可用的数据集,因此可以构建一个复杂的模型,该模型使用许多数据集来预测另一个数据集的值。
数据清理项目的数据集
有时,将一个分布在多个文件中的数据集清理干净,将其压缩为一个,然后进行分析会非常令人满意。在数据清理项目中,有时需要花费数小时的时间来弄清楚每列包含数据集的含义。
有时可能会发现您正在分析的数据集不适合您尝试做的事情,您将不得不重新开始。
在为数据清理项目寻找好的数据集时,您需要:
分布在多个文件中。
它们有许多细微差别和许多可能的角度。
需要大量的研究才能理解。
尽可能“真实”。
这些类型的数据集通常可以在数据集聚合器上找到。这些聚合器往往拥有来自多个来源的数据集,而无需多加注意。过多的关注会给我们带来难以彻底清理的过于精确的数据集。
11. 数据世界
data.world 将自己描述为“数据人的社交网络”,但更准确的说法是“数据的 GitHub”。它是您可以搜索、复制、分析和下载数据集的地方。
此外,您可以将数据上传到 data.world 并使用它与他人协作。在相对较短的时间内,它已经成为数据获取的基准之一,由于data.world与包括大量美国联邦政府数据的各种组织的合作,它拥有许多用户提供的数据集和出色的数据集。
data.world 的一个关键区别是他们创建的工具使处理数据更容易:您可以在他们的界面中编写 SQL 查询来探索数据和合并多个数据集。他们还有适用于 R 和 Python 的 SDK,可以更轻松地在您喜欢的工具中捕获和处理数据。
12. Data.gov
Data.gov 是一个相对较新的网站,是美国政府开放努力的一部分。 Data.gov 允许您从多个美国政府机构下载数据。
数据范围可以从政府预算到学校表现分数。大多数数据需要进一步研究,有时很难理解哪个数据集是“正确”的版本。
任何人都可以下载数据,但某些数据集需要额外的步骤,例如接受许可协议。
您可以直接在 Data.gov 上浏览数据集,无需注册。您可以按域浏览或搜索特定数据集。
13.世界银行The World Bank
世界银行是一个全球发展组织,为发展中国家提供贷款和咨询服务。世界银行定期为发展中国家的项目提供资金,然后收集数据以跟踪这些项目的成功情况。
无需注册即可直接浏览世界银行数据集。数据集有许多缺失值,有时需要多次单击才能实际访问数据。
14. 数据集
Reddit 是一个流行的社区聊天网站,有一个部分专门用于分享有趣的数据集。这称为 subreddit 或 /r/dataset。这些数据集的范围千差万别,因为它们都是用户提交的,但它们往往非常有趣和细微。
15. 学术种子Academic Torrents
Academic Torrents 是一个新站点,专注于共享科学论文中的数据集。这是一个较新的站点,因此很难说更常见的数据集类型会是什么样子。目前,它拥有大量缺乏上下文的有趣数据集。
您可以直接在站点上浏览数据集。由于这是一个洪流站点,所有数据集都可以立即下载,但您需要一个 BitTorrent 客户端。 Deluge 是一个不错的免费选择。
今天先到这儿,希望对云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管管,团队建设 有参考作用 , 您可能感兴趣的文章:
领导人怎样带领好团队
构建创业公司突击小团队
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变
如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。