使用webmagic爬虫对百度百科进行简单的爬取

分析要爬取的网页源码：

　　1、打开要分析的网页，查看源代码，找到要爬取的内容：

　　（选择网页里的一部分右击审查元素也行）

　　2、导入jar包，这个就直接去网上下吧；

　　3、写爬虫：

 1 package com.gb.pachong;
 2 import java.sql.SQLException;
 3 import com.gb.util.AddNum;
 4 import us.codecraft.webmagic.Page;
 5 import us.codecraft.webmagic.Site;
 6 import us.codecraft.webmagic.Spider;
 7 import us.codecraft.webmagic.processor.PageProcessor;
 8 public class BaikePaChong implements PageProcessor 
 9 {
10     private static String key;
11     public static String res=null;
12     // 抓取网站的相关配置，包括编码、重试次数、抓取间隔 
13     private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
14     public void run(String key) 
15     {
16         this.key = key;
17         //addUrl就是种子url，Page对象就是当前获取的页面，getUrl()可以获得当前url，addTargetRequests()就是把链接放入等待爬取，getHtml()获得页面的html元素
18         //启动爬虫
19         Spider.create(new BaikePaChong()).addUrl("https://baike.baidu.com/item/" + key).thread(5).run();
20     }
21     @Override
22     public Site getSite() 
23     {
24         return site;
25     }
26     @Override
27     public void process(Page page) 
28     {
29         //获取页面内容
30         res = page.getHtml().xpath("//meta[@name='description']/@content").toString();
31         //把包含数据添加到数据库的方法的类实例化成对象
32         AddNum addNum=new AddNum();
33         try 
34         {
35             //数据添加进数据库
36             addNum.store(key, res);
37         } 
38         catch (SQLException e) 
39         {
40             e.printStackTrace();
41         }
42     }
43     public void search(String string) 
44     {
45         BaikePaChong baikePaChong = new BaikePaChong();
46         baikePaChong.run(string);
47     }
48     public String getRes()
49     {
50         return res;
51     }
52 }

　　4、上面只是简单的爬取，可以仿照这样的方法进行一些别样的扩展使用。

　　5、Xpath可以在这里直接复制：

相关阅读:
Django之Cookie与Session
Django之分页器
Django基础之Ajax
算法【第八章】斐波那契数列
算法【第七章】贪心算法找零问题
算法【第六章】数据结构相关知识
算法【第五章】常用排序算法
算法【第四章】堆的简单介绍
算法【第三章】树和二叉树简介
算法【第二章】列表查找以及二分查找

原文地址：https://www.cnblogs.com/guobin-/p/10409591.html