• Webmagic入门案例


    webmagic

    需要的依赖:

    <dependencies>   
    <dependency>      
      <groupId>us.codecraft</groupId>                      <artifactId>webmagic-core</artifactId>                <version>0.7.3</version>  
    </dependency>  
    <dependency>      
       <groupId>us.codecraft</groupId>                       <artifactId>webmagic-extension</artifactId>           <version>0.7.3</version>    
       </dependency>
    </dependencies>

    注意:0.7.3版本对SSl的支持并不完全,如果是直接从maven中央仓库下载依赖,在爬虫时只支持SSLv1.2的网站会有SSL异常抛出

    解决方案:

    引入配置文件:log4j.properties

    详细代码:

    package cn.itcast.webmagic;

    import us.codecraft.webmagic.Page;
    import us.codecraft.webmagic.Site;
    import us.codecraft.webmagic.Spider;
    import us.codecraft.webmagic.processor.PageProcessor;

    public class JobProcessor implements PageProcessor {
    //解析页面
    public void process(Page page) {
    //解析返回的数据page,并且把解析的结果放到ResultItems中
    page.putField("title",page.getHtml().css("titile").all());
    }
    private Site site=Site.me();
    public Site getSite() {
    return site;
    }
    //主函数,执行爬虫
    public static void main(String[] args) {
    Spider.create(new JobProcessor())
    .addUrl("https://kuaibao.jd.com/?ids=234893388,234357425,234234634,235018377")//设置爬虫数据的页面
    .run();
    }
    }
    这个案例是对京东的一个页面进行数据的爬取,这只是一个简单的爬虫实例,还是比较容易看懂的,通过这个代码我们也可以对其他任何网页的信息进行爬取例如淘宝等,只需要修改上面有背景颜色的代码
    就可以实现。
  • 相关阅读:
    如何用Percona XtraBackup进行MySQL从库的单表备份和恢复【转】
    8款实用Sublime text 3插件推荐
    windows下配置nginx+php环境
    Windows10+Ubuntu双系统安装[
    window yii2 安装插件 报yiisoft/yii2 2.0.x-dev requires ext-mbstring错
    Composer常见问题
    Yii2中如何使用CodeCeption
    php 单进程SAPI生命周期
    php的SAPI,CLI SAPI,CGI SAPI
    HTTPS服务器配置
  • 原文地址:https://www.cnblogs.com/juddy/p/13141246.html
Copyright © 2020-2023  润新知