• MAC 上抓取网页数据的工具有哪些?


    我希望能够从网页上, 比如气象局数据, 财经数据等等, 我看到官方提供的数据都比较混乱, 有的是一个php文件, 有的是一个文本, 有的干脆不提供数据, 我想问, Mac上, 用什么工具去抓数据, 以及处理这些数据大神们一般用很么方法?

    链接:https://www.zhihu.com/question/27736988/answer/174849599
    https://www.zhihu.com/question/27736988


    1、

    import.io

    用法非常简单,注册后输入网址链接,就可以在可视化界面对数据进行筛选。操作也是超级简单,如下图,唯一缺点就是全英文,不过咱们自己也有,来看看第二个吧。


    v2-acebbaa727dc018d746b3b5c9e40b926_hd.jpg
    v2-b5234d9b93201e548e9ad13fa1a27ba3_hd.jpg

    2、parsehub

    parsehub

    与以上两种网页抓取不同的是,parsehub需要用户下载客户端之后再使用,打开就像一个浏览器,输入网址后在网页提取出需要的信息。


    v2-5ffa6d577260eedf0db1835b76f5d2e5_hd.jpg
    v2-3265a1a2ad79d5eb56cba8571a35a530_hd.jpg

    (二维码自动识别)


    3、80legs

    80legs

    80legs在由5万台计算机构成的Plura网格 上每天抓取200万网页。 但是在使用上可能并没有前几个那么好用。


    v2-f55f186e58e653d9df909ca367240120_hd.jpg
    v2-0c4fe0b77d29c482467334dd5262e9d2_hd.jpg

    4、Web Scraper

    Web Scraper

    Web Scraper是需要在谷歌应用商店安装的一个插件,基本步骤就是点点点

    详细的教程可以看这里


    v2-4e4c98168d73b81c10c41923430215b0_hd.jpg

    (二维码自动识别)


    5、FMiner

    FMiner

    FMiner同样也需要下载客户端进行使用,但它是一款付费产品,有15天的免费使用期。


    v2-702526eff11cb3190f5ccabe0c948ebc_hd.jpg
    v2-fcd3a0855b2d8016d99c2fb7eab87185_hd.jpg
    v2-81863352646781fc58833db684cd1455_hd.jpg

    总结

    以上介绍的都是国外的工具,如果更喜欢中文界面,可以来试试我们的产品造数造数 -深受广大爬虫爱好者喜欢的云爬虫

    造数比更适合国人使用。直接在原网页基础上操作,还可以分布式爬取、深度爬取等,对数据有需求的可以尝试下。


    v2-e36ca192fb5da05c2dbd20ebfe8944f9_hd.jpg

    其实网页爬取工具很多,大可不必全部掌握,把它当作工具来方便自己的工作才是本文的目标。

    作者:徐小磊
    链接:https://www.zhihu.com/question/27736988/answer/497899625
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    我在mac上用的是下图这个,日常基本数据的爬取足够了。

    1)日常临时性的,或者快速的数据爬取,就用这个

    2)其他的还是会写写python爬取,毕竟开发需要时间和成本,要考虑投入产出比

     

    v2-7d629f6caa4efc9ee9e1e573e24512e6_hd.jpg 应用信息 v2-ebae6429c58c3a9ede77cb2f9594bac3_hd.jpg 主界面,和八抓鱼差不多 v2-43b83234524e9c3fcc17ace5517478c8_hd.jpg 爬取规则页面,也和八抓鱼差不多,不过更好看和方便
     
     
  • 相关阅读:
    MapReduce 运行流程概要
    HDFS 读写流程概要
    Hadoop源码分析22:dfsclient概要
    Hadoop源码分析22:dfsclient概要
    Matlab安装SVM/RF工具箱的办法
    最大似然估计、最大后验概率估计、贝叶斯公式的理解
    车牌识别
    BP神经网络
    SVM中核函数的理解
    数据库面试
  • 原文地址:https://www.cnblogs.com/lxwphp/p/15453203.html
Copyright © 2020-2023  润新知