- KDD杯的中心,所有的数据,任务和结果。
- UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。
- UCI机器学习数据库。
- AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。
- 生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。
- 加拿大开放数据,许多政府和地理空间数据集的试点项目。
- 因果关系工作平台的数据存储库。
- 数据源手册,指南公开数据,由皮特·沃登,奥莱利(2011年1月)。
- Data.gov.uk,英国(伦敦数据存储的公开数据 )。
- Data.gov /教育,中央指导教育数据资源,包括高价值的数据集,数据可视化工具,课堂上的资源,创建开放数据和更多的应用程序。
- DataMarket,可视化世界的经济,社会,自然,与行业,与100万次系列由联合国,世界银行,欧盟统计局和其他重要的数据提供者。
- Datamob,公共数据善加利用。
- DataSF.org,从旧金山市与县,CA的数据资料交换所。
- DataFerrett,数据挖掘工具,访问和操纵TheDataWeb,许多美国上线的电子政务数据集的集合。
- 钻研,评估学习有效的实验数据
- EconData,成千上万的经济时间序列,产生一些美国政府机构。
- 安然邮件数据集,约150个用户的数据,主要是安然公司的高级管理人员。
- Europeana的数据,包含2000万的文本,图像,视频和声音Europeana的-欧洲文化遗产内容的信任和全面的资源收集的开放的元数据。
- FEDSTATS,美国的统计数据,更全面的信息来源
- FIMI频繁项集挖掘,实现和数据集库。
- 财务数据搜索在OSU,大的目录的财务数据集。
- 全球环境展望(GEO基因表达OMNIBUS),基因表达/分子的丰富存储库支持MIAME兼容的数据提交,并策划,网络资源的基因表达数据的浏览,查询和检索。
- GeoDa中心,地理空间数据。
- 的谷歌ngrams数据集,从数以百万计的谷歌扫描图书的文字。
- 粮食市场调研,财务数据,包括股票,期货等。
- 希拉里·梅森研究质量的大数据集的集合-许多文本和图像数据集。
- ICWSM-2009年的数据集包含4400万8月1日和2008年10月1日的博客文章。
- Infochimps,公开目录和市场数据。您可以共享,出售,牧师和下载任何东西,一切有关的数据。
- 投资者的链接,包括财务数据
- 凯文湾仔数据集列表,文本,SNA,和其他领域。
- KONECT,科布伦茨网络的收集,与所有类型的大型网络数据集,以执行网络挖掘领域的研究。
- 关联开放数据项目,数据免费提供给大家。
- 万首歌曲数据集
- 麻省理工学院癌症基因组基因表达数据和出版物,从麻省理工学院怀特黑德基因组研究中心。
- ML数据,数据存储库的,欧盟Pascal2网络。
- 纳斯达克Data Store数据存储系统,提供市场数据的访问。
- 国民政府统计网站,数据,报告,统计年鉴,新闻发布,以及来自约70个网站,其中包括来自非洲,欧洲,亚洲和拉丁美洲的国家。
- 国家空间科学数据中心(NSSDC),美国航空航天局的数据集从行星探测,空间和太阳物理,生命科学,天体物理学,和更多。
- OpenData Socrata,访问超过10,000的数据集,包括商业,教育,政府和乐趣。
- 彼得Skomoroch数据集书签
- PubGene(TM)基因数据库和工具,基因组学相关的出版物数据库
- 罗伯特·席勒住房,股市,并从他的著 作“非理性繁荣的数据。
- SMD:斯坦福微阵列数据库,从微阵列实验的原料和标准化的数据存储。
- SourceForge.net研究资料,包括历史和状态统计,约10万的项目和超过100万注册用户的活动,在项目管理网站。
- StatLib,债务工具中央结算系统的数据集存档。
- STATOO数据集的第1部分和 STATOO数据集的第2部分
- 时间序列资料库
- 可视化分析测试资源库。
- UCR的时间序列数据存档,提供数据集,文件,链接和代码。
- 美国人口调查局。
- Wikiposit,(虚拟)合并(主要是金融)从许多不同的网站的数据,使用户能够合并来自不同来源的数据
- 雅虎沙盒的数据集,语言,图形,资信评级,广告和市场营销,竞争
- Yelp的学术资料集,所有的数据和评论的250企业,30所大学的学生和学者探索和研究。