• 百度 资讯 爬虫解决方案


    前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法

    第一步:关键词搜索

      1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。

      2.搜索按照时间大小排序,在第一页解析出来  新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。

                                

       3.新闻相信信息解析:

           例如下面的这边新闻,如何解析出来红色的部分信息呢?

        

         策略一: 使用 newspaper,优点是能解析出来大部分的网页,缺点是速度慢,这个Python第三方库不是万能的,比如一些负责的网页是解析不出来信息的。

             使用代码

                

                from newspaper import Article
                url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
                a = Article(url, language='zh') # Chinese
                a.download()
                a.parse()
                print "11111",a.text
                print "22222",a.title

            结果截图:
                

     
    
    
          策略二: 自己写解析规则;
            新闻网页都有什么解析规则呢? 比如都有 开始都有来源,时间等,结束有 责任编辑等词语,自己研究出来一个解析规则

  • 相关阅读:
    剑指offer二十二之从上往下打印二叉树
    剑指offer二十一之栈的压入、弹出序列
    Hadoop简介与伪分布式搭建—DAY01
    getopt解析命令行参数一例:汇集多个服务器的日志
    软件开发:如何表达和维护大型逻辑
    编程语言与可复用性
    危险的 SQL
    谁终将点燃闪电,必长久如云漂泊
    如何使错误日志更加方便排查问题
    生活的诀窍:任务激励式学习法和短小目标法
  • 原文地址:https://www.cnblogs.com/xuchunlin/p/10181161.html
Copyright © 2020-2023  润新知