• 水木清华社区招聘信息定时抓取


    水木上有非常活跃的招聘者在公布招聘信息,可是水木的速度却非常慢。于是试着将其抓取下来,这样子浏览的速度就快了非常多。并且将其部署在SAE上面。可以仅仅查看须要的信息。减少了本地流量耗费,在新浪云平台上启用了两个JVM,云豆预计可以用的。

    在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告。最后才是内容!

    分析了它的返回数据的构成之后,就能够利用Jsoup去请求了。取回来的数据直接进行抽取和过滤,留下须要的数据。然后存到数据库中去。最后再显示到页面上来。

    整个过程大概就是如此。

    同一时候认为要是手动去抓取的话。就太没有意思了,于是设置了定时器,能够定时地去抓取数据并保存。每个小时抓取一次。这样算是差点儿相同能追上论坛的更新了吧,(突然想到还能够晚上的时间段歇息,减少消耗)。

    突然想到,能够加个功能。每一篇招聘信息中差点儿都会有邮箱地址,能够解析出来,准备好一个简历模板,自己主动批量发简历!

    之后可能会加入别的站点的数据。

    界面简单微笑

    可能会有非常多bug敲打

    详细能够移步:http://huntinfo.sinaapp.com/

    完整代码放在 :https://github.com/laozhaokun/huntinfo

  • 相关阅读:
    Android(一)
    git
    UBuntu18.04 配置环境
    TensorRT Development document (Python)
    继续
    tensorRT C++ API
    tensorRT 与yolov3_tiny
    浅谈PHP进程管理
    nginx 平滑重启的实现方法
    fast-cgi & php-fpm 等的理解 (讨论试理解)
  • 原文地址:https://www.cnblogs.com/gccbuaa/p/7324539.html
Copyright © 2020-2023  润新知