百度资讯爬虫解决方案

前言：本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法

第一步：关键词搜索

　　1. 我们要找到适合自己的关键词，注意关键词决定着我们能否搜索到优质的数据，所以找到足够多的关键词，优质的关键词，能让我们采集更多的数据。

　　2.搜索按照时间大小排序，在第一页解析出来新闻标题，新闻来源，新闻发布时间，新闻简单描述，新闻url链接。

　　3.新闻相信信息解析：

　　　　例如下面的这边新闻，如何解析出来红色的部分信息呢？

　　　　策略一：使用 newspaper，优点是能解析出来大部分的网页，缺点是速度慢，这个Python第三方库不是万能的，比如一些负责的网页是解析不出来信息的。

　　　　　　　　　使用代码

　　　　　　　　　　　　from newspaper import Article
　　　　　　　　　　　　url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'

　　　　　　　　　　　　a = Article(url, language='zh') # Chinese
　　　　　　　　　　　　a.download()
　　　　　　　　　　　　a.parse()
　　　　　　　　　　　　print "11111",a.text
　　　　　　　　　　　　print "22222",a.title

　　　　　　　　结果截图：

  　　　　策略二： 自己写解析规则;
　　　　　　　　新闻网页都有什么解析规则呢？ 比如都有  开始都有来源，时间等，结束有 责任编辑等词语，自己研究出来一个解析规则

相关阅读:
剑指offer二十二之从上往下打印二叉树
剑指offer二十一之栈的压入、弹出序列
Hadoop简介与伪分布式搭建—DAY01
getopt解析命令行参数一例：汇集多个服务器的日志
软件开发：如何表达和维护大型逻辑
编程语言与可复用性
危险的 SQL
谁终将点燃闪电，必长久如云漂泊
如何使错误日志更加方便排查问题
生活的诀窍：任务激励式学习法和短小目标法

原文地址：https://www.cnblogs.com/xuchunlin/p/10181161.html

百度 资讯 爬虫解决方案

百度资讯爬虫解决方案