• 数据集


    下面就介绍一些获取数据的方法:

    1 爬虫
    最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

    但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

    跟着下面这个教程可以很快的实现一个强大的爬虫:

    CSDN 爬虫教程
    http://blog.csdn.net/u012052268/article/category/6889435

    2 数据平台
    国内一些机构贡献了一些数据集出来,大家可以在上面下载。

    2.1 数据堂
    数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

    2.2 搜狗实验室
    搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
    http://www.sogou.com/labs/

    2.3 自然语言处理与信息检索共享平台
    是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
    http://www.nlpir.org/?action-category-catid-28

    2.4 聚数力
    http://dataju.cn/Dataju/web/home

    3 人工收集的
    这是几个博主自己总结的,质量很高。

    https://zhuanlan.zhihu.com/p/25138563

    https://www.zhihu.com/question/53655758/answer/146351918

    https://www.douban.com/note/269081724/
    ---------------------
    作者:最小森林
    来源:CSDN
    原文:https://blog.csdn.net/u012052268/article/details/78035272
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    2014年之新年新愿
    C#解析Xml的Dom和Sax方式性能分析
    WCF协议与绑定
    使用SqlServer数据批量插入
    跨站脚本攻击XSS
    疯狂的JSONP
    SQLiteOpenHelper
    Android常用的UI布局
    Android用户界面
    ListView
  • 原文地址:https://www.cnblogs.com/fengwenit/p/10365549.html
Copyright © 2020-2023  润新知