• 爬虫之空气质量检测


    https://www.aqistudy.cn/html/city_detail.html
    分析1:通过抓包发现页面中的数据是动态(ajax)加载出来的,可以捕获到ajax数据包对应的请求(post),请求的url可以捕获到,但是请求参数d对应的数据是动态变化且加密的数据。然后响应回来的数据也是经过加密。
    
    可以通过火狐浏览器找出查询/搜索按钮绑定的事件(click),通过事件可以定位到一个getData的js函数。查询/搜索按钮点击之后getData函数被调用了。
    
    getData函数实现的分析:
    
    在函数实现内部没有直接的ajax请求相关的操作,但是发现了另外两个函数的调用 getWeatherData(); getAQIData();这两个函数实现中会存有ajax请求相关操作。
    分析:getWeatherData()和getAQIData()内部的实现也没有直观的看到ajax请求的操作,但是这两个函数都调用了getServerData这个函数。并且给该函数传递的参数有:
    
    method:'GETDETAIL' or 'GETCITYWEATHER'。
    param字典(object):
    city
    type = ‘HOUR’
    startTime
    endTime
    分析getServerData函数的实现:
    
    我们在抓包工具中做全局搜索,搜到了该函数的实现,不过该函数的实现是经过了JS混淆(js源码的加密),我们必须经过反混淆后才可以看到js源码。
    在该函数中终于找到了ajax请求对应的代码。
    
    ajax发起的是post请求,请求参数d是由getParam(method, object);进行的返回。
    
    decodeData(data)函数就是将加密后的响应数据进行解密,将原文进行返回。
    上述分析出的重要的相关函数都是js函数,python是无法直接运行js代码的,但是可以使用相关的模块模拟执行js代码。
    
    PyExecJS介绍:PyExecJS 是一个可以使用 Python 来模拟运行 JavaScript 的库。我们需要pip install PyExecJS对其进行环境安装。
    import execjs
     
    ​
    node = execjs.get()
     
    # Params
    method = 'GETCITYWEATHER'
    city = '北京'
    type = 'HOUR'
    start_time = '2018-01-25 00:00:00'
    end_time = '2018-01-25 23:00:00'
     
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file,encoding='utf-8').read())
     
    # Get params
    js = 'getPostParamCode("{0}","{1}","{2}","{3}","{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    print(params)
    tdgHOYxwKdDSgYXe+RLPzYCgLvrddahasI5XXklB4gVLYqab+XRPpMD/oSqnJ/aEmFwzVEUhLnPzRy03+X1BI4qc9EYeRPqiKrT+f1JQExGQ4ii8kKvZhGH+nPffaX/xq5iLB6vblcvBC/L8e6UxdtfyvXLc2nPlMfMzJif/042ZIWm3SQ+zmX6OPAkIBL17GU+bM8AlLVNDCyaBsN+p+WZ5llDpyZMb7I06Cfmh7z9HsFGZIcKprk+j5q7Xak5/s2FKzfqW0Aa4zQActYeK2I+iZdr5m+HQLvQIWeONgbwDKnrTEgHy5euB3jkObS7N4+inkw5hQh/HLg5FnfgDzBG7Kv7QrgPVGeIeWOAoZtxw9LWaRsqgpPMd517opKmU+ohrZYOgz9ypW/6PYSi6kTUgx5/5qFWMF+biCNN6JVh/0ZtSbO9rsO9QorgJDpx8/s4wYX2+3nYWxdh/Pu+ctGiJbeOC0uUh/heDCNPGu6E=
    import requests
    #补充
    import execjs
     
    ​
    node = execjs.get()
     
    # Params
    method = 'GETDETAIL'
    city = '北京'
    type = 'HOUR'
    start_time = '2018-01-25 00:00:00'
    end_time = '2018-01-25 23:00:00'
     
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file,encoding='utf-8').read())
     
    # Get params
    js = 'getPostParamCode("{0}","{1}","{2}","{3}","{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    ​
    url = 'https://www.aqistudy.cn/apinew/aqistudyapi.php'
    data = {
        'd':params
    }
    page_text = requests.post(url,data=data).text
    ​
    js = 'decodeData("{0}")'.format(page_text)
    decrypted_data = ctx.eval(js)
    print(decrypted_data)
    execjs在使用的前提是需要安装好nodeJS环境
    反爬:
    js加密
    js混淆

    中国空气质量在线监测平台加密数据爬取

     

    - 中国空气质量在线监测分析平台是一个收录全国各大城市天气数据的网站,包括温度、湿度、PM 2.5、AQI 等数据,链接为:https://www.aqistudy.cn/html/city_detail.html,网站显示为:

    该网站所有的空气质量数据都是基于图表进行显示的,并且都是出发鼠标滑动或者点动后才会显示某点的数据,所以如果基于selenium进行数据爬取也是挺吃力的,因此我们采用requests模块进行数据爬取。

    - 基于抓包工具展开分析:

      - 通过分析发现,只有在页面中设置了查询的城市名称和时间范围后,然后点击查询按钮,在抓包工具中才会捕获到一个ajax请求的数据包,我们想要爬取的数据也在该数据包中:

      

      然后点击捕获到的数据包后,发现当前ajax请求为post类型的请求,携带一个请求参数d,且该请求参数为加密之后的数据,并且响应中的响应数据也是经过加密后的密文数据。

      加密的请求参数:

      

      加密的响应数据:

      

    - 问题:那么如果我们想要将空气质量数据进行爬取,则需要对上述捕获到的ajax数据包中的post请求对应的url携带请求参数进行请求发送,然后获取对应的响应数据。但是请求参数是加密后的密文,响应数据也是加密后的密文。并且post请求参数对应的密文每次请求都是动态变化的,我们如何设置?就算能够破解动态且加密的请求参数,那么我们请求到的密文形式的响应数据我们也无法使用啊,我们只能使用可视化的明文数据,也就是解密后的数据。所以,我们换个思路,撸起袖子,把数据加密给干了!

    - 解决:

      - 我们以及知道,刚才我们捕获到的ajax请求是通过点击了页面中设定”时间范围“后的查询按钮后触发的,也就是说该查询按钮上一定绑定了某个点击事件且触发了对应ajax请求发送的事件。那么接下来我们可以通过火狐浏览器去检测该查询按钮上到底绑定了哪些事件且是否发起了ajax请求呢?火狐浏览器可以分析页面某个元素的绑定事件以及定位到具体的代码在哪一行。

      

      - 进入到点击事件对应的页面源码中,发现果真是对搜索按钮添加了一个点击事件。

      

      - 接下来,我们需要分析getData函数的内部实现,在当前源文件中,搜索该方法进行定位,定位到了之后,通过简短的分析,发现其内部是调用下图选中的两个方法进行数据的请求。

      

      - 接着分析这两个方法内部的实现,该两个方法就在getData实现的下方。再进一步分析发现这两个方法都调用了 getServerData() 这个方法,并传递了 method、param 等参数,然后还有一个回调函数很明显是对返回数据进行处理的,这说明 Ajax 请求就是由这个 getServerData()方法发起

      

      - 定位getServerData方法,查看其内部的具体实现。在谷歌浏览器中开启抓包工具,然后对该网站的首页https://www.aqistudy.cn/html/city_detail.html发起请求,捕获所有的数据包,然后在所有的数据包中实现全局搜索,搜索该方法是存在哪个文件中的。

      

      - JavaScript 混淆:我们会惊讶的发现getServerData后面跟的是什么鬼啊?不符合js函数定义的写法呀!!!其实这里是经过 JavaScript 混淆加密了,混淆加密之后,代码将变为不可读的形式,但是功能是完全一致的,这是一种常见的 JavaScript 加密手段。我们想要查看到该方法的原始实现则必须对其进行反混淆。

      - 反混淆:JavaScript 混淆之后,其实是有反混淆方法的,最简单的方法便是搜索在线反混淆网站,这里提供一个:http://www.bm8.com.cn/jsConfusion/。我们可以将getServerData存在的这行数据粘贴到反混淆的网站中。

      

      - 分析:在反混淆后,我们很清晰的看到了ajax请求发送的实现。然后还看到了ajax对应post请求的动态加密请求参数的加密方法getParam(),并且将method和object作为了函数的参数。method和object是从getServerData函数的参数中获取的,那么getServerData函数中的method和object表示的是什么呢?我们需要回过头去查看getServerData函数的调用:

      

      发现method是固定形式字符串,object就是param是一个字典,里面存储了三组键值对city表示查询城市名称,startTime和endTime为查询起止时间,type表示为HOUR:

      

       至此getParam()函数中的两个参数的表示含义我们已经清楚了。getParam函数的返回值就是ajax对应post请求的动态加密请求参数了,我们需要定位到其函数内部的实现,看看是如何对请求参数进行加密的。在getServerData中我们发现了ajax请求对应的操作代码,其中还有一个非常重要的一步,就是ajax请求成功后的回调函数实现内部,接受到了响应数据data,data我们知道是一组密文数据,然后调用了decodeData对data进行了解密操作:

      

      在反混淆网站的代码中我们可以搜索到getPrame和decodeData这两个函数的实现:

      

      发现getParam函数中使用了 Base64 和 AES 对param进行加密。加密之后的字符串便作为ajax对应post的请求参数传送给服务器了。

      

      服务器相应回来的密文数据是被decodeData进行解密的。观察解密函数发现是通过base64+AES+DES进行的解密!

    - 总结:点击查询按钮后,最终是触发了getServerData函数发起了ajax请求,请求参数是通过getParam进行的加密,响应回来的密文数据是通过decodeData函数进行解密处理的。

    - 接下来,我们需要借助于 PyExecJS 库来实现模拟JavaScript代码执行获取动态加密的请求参数,然后再将加密的响应数据带入decodeData进行解密即可!

      - PyExecJS介绍:PyExecJS 是一个可以使用 Python 来模拟运行 JavaScript 的库。我们需要pip install PyExecJS对其进行环境安装。

      - 开始执行js:

        - 1.将反混淆网站中的代码粘贴到jsCode.js文件中

        - 2.在该js文件中添加一个自定义函数getPostParamCode,该函数是为了获取且返回post请求的动态加密参数:

    复制代码
    function getPostParamCode(method, city, type, startTime, endTime){
        var param = {};
        param.city = city;
        param.type = type;
        param.startTime = startTime;
        param.endTime = endTime;
        return getParam(method, param);
    }
    复制代码

        - 3.在py源文件中可以基于PyExecJS模拟执行步骤2中定义好的自定义函数,获取动态加密参数:    

    复制代码
    import execjs
     
    
    node = execjs.get()
     
    # Params
    method = 'GETCITYWEATHER'
    city = '北京'
    type = 'HOUR'
    start_time = '2018-01-25 00:00:00'
    end_time = '2018-01-25 23:00:00'
     
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file).read())
     
    # Get params
    js = 'getPostParamCode("{0}", "{1}", "{2}", "{3}", "{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    print(params)
    复制代码

        - 4.接着我们用 requests 库来模拟 POST 请求:    

    复制代码
    import execjs
    import requests
    
    node = execjs.get()
     
    # Params
    method = 'GETCITYWEATHER'
    city = '北京'
    type = 'HOUR'
    start_time = '2018-01-25 00:00:00'
    end_time = '2018-01-25 23:00:00'
     
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file).read())
     
    # Get params
    js = 'getPostParamCode("{0}", "{1}", "{2}", "{3}", "{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    
    #发起post请求
    url = 'https://www.aqistudy.cn/apinew/aqistudyapi.php'
    response_text = requests.post(url, data={'d': params}).text
    print(response_text)
    复制代码

        - 5.接下来我们再调用一下 JavaScript 中的 decodeData() 方法即可实现解密:

    复制代码
    import execjs
    import requests
    
    node = execjs.get()
     
    # Params
    method = 'GETCITYWEATHER'
    city = '北京'
    type = 'HOUR'
    start_time = '2018-01-25 00:00:00'
    end_time = '2018-01-25 23:00:00'
     
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file).read())
     
    # Get params
    js = 'getPostParamCode("{0}", "{1}", "{2}", "{3}", "{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    
    #发起post请求
    url = 'https://www.aqistudy.cn/apinew/aqistudyapi.php'
    response_text = requests.post(url, data={'d': params}).text
    
    #对加密的响应数据进行解密
    js = 'decodeData("{0}")'.format(response_text)
    decrypted_data = ctx.eval(js)
    print(decrypted_data)
    复制代码

        运行结果:

    复制代码
    {"success":true,"errcode":0,"errmsg":"success","result":{"success":true,"data":{"total":24,"rows":[{"time":"2018-01-25 00:00:00","temp":"-7","humi":"35","wse":"1","wd":"u4e1cu5317u98ce","tq":"u6674"},{"time":"2018-01-25 01:00:00","temp":"-9","humi":"38","wse":"1","wd":"u897fu98ce","tq":"u6674"},{"time":"2018-01-25 02:00:00","temp":"-10","humi":"40","wse":"1","wd":"u4e1cu5317u98ce","tq":"u6674"},{"time":"2018-01-25 03:00:00","temp":"-8","humi":"27","wse":"2","wd":"u4e1cu5317u98ce","tq":"u6674"},{"time":"2018-01-25 04:00:00","temp":"-8","humi":"26","wse":"2","wd":"u4e1cu98ce","tq":"u6674"},{"time":"2018-01-25 05:00:00","temp":"-8","humi":"23","wse":"2","wd":"u4e1cu5317u98ce","tq":"u6674"},{"time":"2018-01-25 06:00:00","temp":"-9","humi":"27","wse":"2","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 07:00:00","temp":"-9","humi":"24","wse":"2","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 08:00:00","temp":"-9","humi":"25","wse":"2","wd":"u4e1cu98ce","tq":"u6674u8f6cu591au4e91u8f6cu591au4e91u95f4u6674"},{"time":"2018-01-25 09:00:00","temp":"-8","humi":"21","wse":"3","wd":"u4e1cu5317u98ce","tq":"u6674u8f6cu591au4e91u8f6cu591au4e91u95f4u6674"},{"time":"2018-01-25 10:00:00","temp":"-7","humi":"19","wse":"3","wd":"u4e1cu5317u98ce","tq":"u6674u8f6cu591au4e91u8f6cu591au4e91u95f4u6674"},{"time":"2018-01-25 11:00:00","temp":"-6","humi":"18","wse":"3","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 12:00:00","temp":"-6","humi":"17","wse":"3","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 13:00:00","temp":"-5","humi":"17","wse":"2","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 14:00:00","temp":"-5","humi":"16","wse":"2","wd":"u4e1cu98ce","tq":"u591au4e91"},{"time":"2018-01-25 15:00:00","temp":"-5","humi":"15","wse":"2","wd":"u5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 16:00:00","temp":"-5","humi":"16","wse":"2","wd":"u4e1cu5317u98ce","tq":"u591au4e91"},{"time":"2018-01-25 17:00:00","temp":"-5","humi":"16","wse":"2","wd":"u4e1cu98ce","tq":"u591au4e91"},{"time":"2018-01-25 18:00:00","temp":"-6","humi":"18","wse":"2","wd":"u4e1cu98ce","tq":"u6674u95f4u591au4e91"},{"time":"2018-01-25 19:00:00","temp":"-7","humi":"19","wse":"2","wd":"u4e1cu98ce","tq":"u6674u95f4u591au4e91"},{"time":"2018-01-25 20:00:00","temp":"-7","humi":"19","wse":"1","wd":"u4e1cu98ce","tq":"u6674u95f4u591au4e91"},{"time":"2018-01-25 21:00:00","temp":"-7","humi":"19","wse":"0","wd":"u5357u98ce","tq":"u6674u95f4u591au4e91"},{"time":"2018-01-25 22:00:00","temp":"-7","humi":"22","wse":"1","wd":"u4e1cu5317u98ce","tq":"u6674u95f4u591au4e91"},{"time":"2018-01-25 23:00:00","temp":"-9","humi":"27","wse":"1","wd":"u897fu5357u98ce","tq":"u6674u95f4u591au4e91"}]}}}
    复制代码
  • 相关阅读:
    求职经验丨应届毕业生,如何找到一份程序员工作呢?
    C++ 为什么能够流行几十年?C++ 之父为你揭晓答案!
    C/C++最大的祸害是什么?内存错误,舍它其谁!
    C语言丨关于结构体内存对齐,这份干货我收了,你随意~
    11月程序员平均工资又跌了?真是跌宕又起伏的一年!
    不熟悉C++面向对象?了解C++面向对象编程,看这篇够了!
    C++基础总结(六):C++进阶——模板和STL入门
    团队-团队编程项目作业名称-成员简介及分工
    Auto-close message box
    Adding a splash screen to your dialog based application
  • 原文地址:https://www.cnblogs.com/qj696/p/11323402.html
Copyright © 2020-2023  润新知