• 百度APP爬虫


    1.抓包

    访问一个频道,Charles抓包,找到真实连接,一般返回json数据和网页中数据对应为真实连接

    请求方式为post,所以要添加请求头和表单数据,由于在charles环境下,所以要添加charles的代理ip和认证文件,然后进行测试,访问成功。

    对不同的频道分别经过charles抓包,发现请求的链接都是一样的,只是更换了表单中tab_id属性来对应不同的频道,所以创建一个存储tab_id和频道名的字典,更换时从tab_id字典中取值,来实现不同频道的访问

    2.封ip测试

    一直访问并没有被封,所以就放开了采吧

    3.概览页

    一般概览页的数据库中存放文章的链接,但是这个百度APP返回数据中含有所有字段,所以将返回的数据全部存放到数据库中。

    4.细览页

    读取概览页数据库中的数据,通过正则解析出各个字段,去除无效信息,字段加密存放到数据库中

     

     

    注:charles代理ip自行设置;url只提供一个样子,自行抓取;数据库自行设置;认证文件自行设置;表单数据自行抓取;数据解析模块需要什么自己就解析什么,这里不提供了;处理上还不是很完美,自行修改;

     gailanye.py

      1 import requests
      2 import re
      3 import time
      4 import pymysql
      5 
      6 
      7 class BD(object):
      8     def __init__(self):
      9         self.url = 'https://mbd.baidu.com/searchbox?-此处省略-7ig'
     10         self.form = {
     11             'data': '''此处省略。。。
     12                 
     13         '''
     14 
     15         }
     16         self.proxy = {
     17             'https': 'https://此处省略'
     18         }
     19         self.channel = {
     20             '1': '推荐',
     21             '3': '娱乐',
     22             '4': '体育',
     23             '5': '时尚',
     24             '6': '国际',
     25             '8': '热点',
     26             '12': '汽车',
     27             '13': '军事',
     28             '14': '科技',
     29             '15': '财经',
     30             '16': '游戏',
     31             '17': '女人',
     32             '18': '历史',
     33             '28': '搞笑',
     34             '35': '情感',
     35             '34': '美食',
     36             '41': '居家',
     37             '42': '政务',
     38             '43': '旅游',
     39             '44': '辟谣',
     40             '51': '健康',
     41             '54': '萌宠',
     42             '72': '新华社',
     43             '75': '虎扑',
     44             '81': '澎湃新闻',
     45             '85': '人民日报',
     46             '106': '36氪',
     47             '88': '虎嗅',
     48             '309999289': '上海',
     49             '309999257': '广州',
     50             '309999340': '深圳',
     51             '309999332': '天津',
     52             '309999179': '杭州',
     53             '309999315': '南京',
     54             '309999218': '武汉',
     55             '109999131': '北京',
     56         }
     57 
     58     def modify_tab_id(self, tab_id):
     59         # 修改表单中的tab_id
     60         self.form['data'] = re.sub('"tab_id": "(d+)"', '"tab_id": "{}"'.format(tab_id), self.form['data'])
     61         # self.form['data'] = re.sub('"last_update_time": (d+),', '"last_update_time": {}000,'.format(int(time.time())), self.form['data'])
     62         return self.form['data']
     63 
     64     def get_data(self):
     65         # 获得频道和内容
     66         list_d = []
     67         for data in self.channel:
     68             data_channel = []
     69             print('='*20)
     70             print(data)
     71             self.form['data'] = self.modify_tab_id(data)
     72             response = requests.post(self.url, data=self.form, proxies=self.proxy, verify='*.pem')
     73             datas = response.text
     74             channel = self.channel[data]
     75             data_channel = [channel, datas]
     76             print(data_channel)
     77             list_d.append(data_channel)
     78         return list_d
     79 
     80     def save_data(self, list_d):
     81         # 写入数据库
     82         host = '127.0.0.1'
     83         db = 'bd'
     84         user = 'root'
     85         psd = '123456'
     86         charset = 'utf8'
     87 
     88         con = pymysql.connect(host=host, db=db, user=user, passwd=psd, charset=charset)
     89 
     90         cur = con.cursor()
     91 
     92         for i in list_d:
     93             print(i)
     94             sql = (
     95                 "insert into gly(此处省略)"
     96                 "values(此处省略)")
     97             list_m = [i[0], i[1]]  # i[0]为频道名  i[1]为数据
     98             try:
     99                 cur.execute(sql, list_m)
    100                 print('insert success')
    101             except Exception as e:
    102                 print('insert error', e)
    103                 con.rollback()
    104             else:
    105                 con.commit()
    106         cur.close()
    107         con.close()
    108 
    109 
    110 if __name__ == '__main__':
    111     bd = BD()
    112     list_d = bd.get_data()
    113     bd.save_data(list_d)

    xilanye.py

      1 import pymysql
      2 import json
      3 import time
      4 import hashlib
      5 import requests
      6 from lxml import etree
      7 import re
      8 
      9 
     10 # 娱乐频道先删除掉
     11 # 体育频道有导航栏目前还无法获取data,先过滤掉
     12 
     13 
     14 class XLY(object):
     15     def __init__(self):
     16         self.no_results_channel = []  # 存储没有数据的频道
     17         self.proxy = {
     18             'https': '....'
     19         }
     20         self.sum_data = 0
     21 
     22     def get_data(self):
     23         host = '127.0.0.1'
     24         db = 'bd'
     25         user = 'root'
     26         pwd = '123456'
     27         charset = 'utf8'
     28         con = pymysql.connect(host=host, db=db, user=user, passwd=pwd, charset=charset)
     29 
     30         datas = []
     31         cur = con.cursor()
     32         sql = 'select * from gly'
     33         try:
     34             cur.execute(sql)
     35             results = cur.fetchall()
     36             i = 0
     37             for result in results:
     38                 i += 1
     39                 data = []
     40                 # 读出来是元组类型,转化为列表返回
     41                 result = list(result)
     42                 if '{"100":[]}' in result[1]:
     43                     self.no_results_channel.append(result[0])
     44                     print('no results channel:', result[0])
     45                 elif 'navigatorItems' in result[1]:
     46                     print('有导航栏的频道,还没有处理')
     47                 else:
     48                     data = [result[0], result[1]]
     49                     datas.append(data)
     50                     print('get_data')
     51                 print('=' * 20, i)
     52                 # if i == 5:
     53                 #     break
     54         except Exception as e:
     55             print('error', e)
     56             con.rollback()
     57         else:
     58             con.commit()
     59         return datas
     60 
     61     def parse_data(self, datas):
     62         items = []
     63         for data in datas:
     64             channel = data[0]
     65             channel_data = data[1]
     66             channel_data = json.loads(channel_data)
     67             channel_data = channel_data['data']['100']['itemlist']['items']
     68 
     69             for text in channel_data:
     70                 print('='*20)
     71                 item = {}
     72                 try:
     73                     mode = text['data']['mode']
     74                 except:
     75                     mode = ''
     76                     print('mode not found')
     77                 # 根据mode判断是否为文章,过滤掉图集广告
     78                 if mode == 'text':
     79                     此处省略
     87 
     88                     m1 = hashlib.md5()
     89                     m1.update(item['urlname'].encode("utf8"))
     90                     item['hkey'] = m1.hexdigest()
     91 
     92                     try:
     93                         item['comments'] = text['data']['comment_num'][:-2]
     94                     except:
     95                         item['comments'] = ''
     96                         print('no comment_num')
     97 
     98                     # 解析content
     99                     content, url_time = self.parse_content(item['urlname'])
    100                     101                     102                     print(item)
    103                     self.save_data(item)
    104                 if item != {}:
    105                     items.append(item)
    106         return items
    107 
    108     def parse_content(self, url):
    109         # 根据每一篇文章获取content, url_time
    110         response = requests.get(url, proxies=self.proxy, verify='此处省略.pem')
    111         text = response.text
    112         element = etree.HTML(text)
    113         contents = element.xpath('//p[@class="contentText contentSize contentPadding"]//text()')
    114         url_time = element.xpath('//div[@class="infoSet"]//text()')
    115         try:
    116             if '17-' in url_time:
    117                 url_time = re.sub('17', '2018', url_time)
    118                 print(url_time)
    119             else:
    120                 url_time = '2018-' + str(url_time[1])
    121         except:
    122             url_time = ''
    123         if not contents:
    124             contents = ''
    125         else:
    126             contents = ''.join(contents)
    127         return contents, url_time
    128 
    129     def save_data(self, item):
    130         host = '127.0.0.1'
    131         db = 'bd'
    132         user = 'root'
    133         pwd = '123456'
    134         charset = 'utf8'
    135 
    136         con = pymysql.connect(host=host, db=db, user=user, passwd=pwd, charset=charset)
    137         cur = con.cursor()
    138         sql = 'insert into xly(此处省略)' 
    139               'values(此处省略)'
    140         list = [此处省略]
    142         try:
    143             cur.execute(sql, list)
    144             print('insert success')
    145             self.sum_data += 1
    146             print('成功插入数据库第{}条'.format(self.sum_data))
    147         except Exception as e:
    148             print('error~~', e)
    149             con.rollback()
    150         else:
    151             con.commit()
    152         # cur.execute(sql, list)
    153         cur.close()
    154         con.close()
    155 
    156 
    157 if __name__ == '__main__':
    158     xly = XLY()
    159     datas = xly.get_data()
    160     items = xly.parse_data(datas)
  • 相关阅读:
    Code First 迁移
    使用C#创建Windows服务 并发布Windows 服务
    线程(Thread,ThreadPool)、Task、Parallel
    用《捕鱼达人》去理解C#中的多线程
    Visual Studio提示“无法启动IIS Express Web服务器”的解决方法 调试闪退
    防cc攻击策略
    多线程和异步的异同和使用场景
    JQuery Checkbox 获取多选值 Checkbox选中个数
    C# 说说lock到底锁谁?(1)
    C# 说说lock到底锁谁?(2)
  • 原文地址:https://www.cnblogs.com/MC-Curry/p/9809265.html
Copyright © 2020-2023  润新知