• 数据集


    下面就介绍一些获取数据的方法:

    1 爬虫
    最好的方法就是自己写爬虫,优点是可以自由的定制想要的数据,缺点是周期较长。

    但现在随着python的兴起,越来越多的架包的开发,爬虫越来越简单实现。

    跟着下面这个教程可以很快的实现一个强大的爬虫:

    CSDN 爬虫教程
    http://blog.csdn.net/u012052268/article/category/6889435

    2 数据平台
    国内一些机构贡献了一些数据集出来,大家可以在上面下载。

    2.1 数据堂
    数据堂 是国内比较大的大数据交易平台,上面有许多数据覆盖面很广,但是要收费,推荐有财力的实验室采购。网址: http://www.datatang.com/

    2.2 搜狗实验室
    搜狗实验室是比较权威的数据提供方提供的数据质量很高而且数据是免费的。网址:
    http://www.sogou.com/labs/

    2.3 自然语言处理与信息检索共享平台
    是中科大的信息平台,上面有一些自然语言相关的数据集。网址:
    http://www.nlpir.org/?action-category-catid-28

    2.4 聚数力
    http://dataju.cn/Dataju/web/home

    3 人工收集的
    这是几个博主自己总结的,质量很高。

    https://zhuanlan.zhihu.com/p/25138563

    https://www.zhihu.com/question/53655758/answer/146351918

    https://www.douban.com/note/269081724/
    ---------------------
    作者:最小森林
    来源:CSDN
    原文:https://blog.csdn.net/u012052268/article/details/78035272
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    手把手教你把华为手机完整备份到NAS
    C#异步编程
    NOIp 走好记
    win11永久关闭实时保护的方法
    BOS解决方案SVN无法签出
    虚拟机VMtools安装驱动失败
    Win11记事本输入多次回车后异常卡死
    清理解决方案_最近开启过的方案
    新增业务员(销售员)选不到特定组织
    readthedocs项目地址
  • 原文地址:https://www.cnblogs.com/fengwenit/p/10365549.html
Copyright © 2020-2023  润新知