• 记一次有意思的爬虫


    本人在之前实习的时候就接触过爬虫,到现在陆陆续续爬过一些东西

    用WebCollector爬过微信公众号文章、百度新闻、百度BBS等,

    用HtmlUnit爬过域名-IP关系,目前正用原生HtppClient爬过一些网站的文件。

    最近做实验又需要爬一些数据,某xun没有难度,分析了下HTTP链接,

    找到真正的请求的HTTP请求,直接爬得到JSON格式数据,就是我爬的有点凶。

    因为数据不是很多,我想速战速决,单IP十个线程,第一次是半夜爬的,没封,爬了1万条;

    第二次是下午爬的,两万条只爬了1万条左右,被封了。

    今天下午爬某du,其实就是我提交个数据,某度给我返回个yes or no就行了。

    页面上明明看得到数据,既不是图片,也不是文字(鼠标选不中),源代码里也没有数据。

    分析了各种链接,也没有额外获取数据的HTML、JS请求。

    最后在源代码里发现了蹊跷,两种不同返回结果如下:

    之前一直找汉字去了,所以没找到;应该是他们根据这两种返回结果,用CSS做了处理。

    也是第一次遇到这种情况,比较有意思,哈哈。

  • 相关阅读:
    hdu4911 简单树状数组
    hdu4911 简单树状数组
    hdu4912 LCA+贪心
    hdu4912 LCA+贪心
    hdu4907 水dp 或者set
    hdu4907 水dp 或者set
    hdu4908 中位数子串
    hdu4908 中位数子串
    hdu4909 状态压缩(偶数字符子串)
    hdu4909 状态压缩(偶数字符子串)
  • 原文地址:https://www.cnblogs.com/vincent-vg/p/7833392.html
Copyright © 2020-2023  润新知