• 机器学习深度学习常用数据集


    深度学习视觉领域常用数据集汇总:https://www.jianshu.com/p/9990284bc4d5?from=singlemessage

    机器学习最常用的50大免费数据集: https://mp.weixin.qq.com/s/-a3EiPSXcbFpMwvOfcFEYQ  (原文链接:https://gengo.ai/articles/the-50-best-free-datasets-for-machine-learning/)

    中文文本大数据集:

    中科大自然语言处理与信息检索共享平台
    http://www.nlpir.org/?action-category-catid-28
    
    搜狗实验室
    搜狗实验室提供了一些高质量的中文文本数据集,但时间比较早,多为2012年以前的数据。
    https://www.sogou.com/labs/resource/list_pingce.php
    
    中文文本分类数据集THUCNews
    THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。
    
    http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews
    
    中文完形填空数据集
    https://github.com/ymcui/Chinese-RC-Dataset
    
    清华大学开放中文词库
    http://thuocl.thunlp.org/
    
    中华古诗词数据库
    最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
    
    https://github.com/chinese-poetry/chinese-poetry
    
    上百种预训练中文词向量
    https://github.com/Embedding/Chinese-Word-Vectors
    
    《口袋妖怪》跨语种命名对照数据集
    任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。
    https://pokewiki.de/index.php?title=Pok%C3%A9mon-Liste
    
    1998年《人民日报》词性标注库
    
    https://pan.baidu.com/s/1gd6mslt
    
    中文突发事件语料库
    https://github.com/shijiebei2009/CEC-Corpus
    
    中国股市信息爬取数据集
    https://github.com/startprogress/China_stock_announcement
    
    中文语料小数据
    包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。
    https://github.com/crownpku/Small-Chinese-Corpus
    
    Tushare财经数据接口
    TuShare是一个免费、开源的python财经数据接口包。
    http://tushare.org/
    
    保险行业语料库
    https://github.com/Samurais/insuranceqa-corpus-zh
    
    中文人名语料库
    包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。
    https://github.com/wainshine/Chinese-Names-Corpus
    
    中文简称数据集
    https://github.com/zhangyics/Chinese-abbreviation-dataset
    
    中文数据预处理材料
    包含:
    1)分词词典: 综合了百度、搜狗等词库,以及手动整理的若干人名和新近出现的热词
    2)中文停用词: 综合了"百度停用词表","哈工大停用词表","四川大学机器学习实验室停用词表"等若干停用词表,取交集并去除了不需要的标点符号和英文单词
    https://github.com/dongxiexidian/Chinese
    
    汉语拆字字典
    https://github.com/kfcd/chaizi
    
    中文实体情感知识库
    刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。
    https://github.com/rainarch/SentiBridge
    
    中文对话情感分析数据集
    https://github.com/z17176/Chinese_conversation_sentiment
    
    中文的wikipedia,非常大的一个中文数据集,用来训练词向量是一个不错的选择,由于是HTML页面,需要借助专业的工具来清洗。
    https://dumps.wikimedia.org/zhwiki/
    View Code

     AI 从业者都应该知道的实验数据集: https://www.leiphone.com/news/201810/7vLANCRl5uuG25oY.html?foxhandler=RssReadRenderProcessHandler

     

      

  • 相关阅读:
    apt-get connects to web
    Particle Filter(CC) 放狗
    Get a specific pixel coordinates where your mouse on (cc)
    event
    两张图片的平移实验 (SLAM translate epipolar geometry)
    vs2010 LINK : fatal error LNK1123: 转换到 COFF 期间失败:(cc)
    fx and fy in Calibration
    How do I get add-apt-repository to work through a proxy?
    ROS and PCL install
    Longest palindrome subsequence
  • 原文地址:https://www.cnblogs.com/czhwust/p/9208120.html
Copyright © 2020-2023  润新知