• 守望先锋-生涯数据信息抓取的实现


    成品展示:

    (博主手残党)

    完整成品:http://myspace123.qiniudn.com/456.html

    源码:https://github.com/xcr1234/overwatch

    在入坑前先看一下之前的博文吧!从爬取湖北某高校hub教务系统课表浅谈Java信息抓取的实现

    暴雪爸爸在守望先锋的官网上提供了一个生涯数据的查询,可惜没有提供相关的API,“无法通过公开渠道自由抓到完整数据”。因此是通过模拟登陆、解析html的方式获取数据

    1.开发环境

    httpclient抓取页面数据

    jsoup解析html

    mozilla rhino执行js代码

    2。抓包

    使用fiddler抓包,暴雪的登录接口是

    这里面的csrftoken和sessionTimeout在页面上有,useSrp、persistLogin、fp都是常量,password是占位符

    主要需要解决的问题就是publicA(公钥)和clientEvidenceM1(凭据)

    3.生成公钥和凭据

    不用在意publicA(公钥)和clientEvidenceM1(凭据)的意义,这两个是从login.js的onSuccess方法中生成出来的。其中login.js使用了srp.js的对象SrpClientSession,直接使用rhino执行onSuccess的方法就行了。

    (需要的moduls,generator等参数从一个csrf-token的api中获取)

    由于srp.js很大,rhino执行时很慢,因此先用rhino compiler编译成srp.class文件,用PluginClassLoader动态加载进来执行。编译后的class是实现了Script接口的,它有一个public Object exec(Context cx, Scriptable scope);方法,用来执行自身。

    4、附录

    a.非常重要的设置

    HttpClient的Cookie不正确,报invalid cookie header的错误。

    RequestConfig.Builder builder =  RequestConfig.custom();
    builder.setCookieSpec(CookieSpecs.STANDARD); 
    RequestConfig config = builder.build();
    httpPost.setConfig(config);
    //httpGet.setConfig(config);

    b.创建classloader时,应该使用AccessController.doPrivileged方法。

    c.rhino的Context,Scope,Script应该在同一个线程中执行。

     1  loginForm.csrfToken.val(e.csrf_token), this.password = this.inputPassword.val(),
     2 
     3             this.srpClientSession = new SrpClientSession(e.modulus, e.generator, e.hash_function),
     4 
     5 
     6             this.srpClientCredentials = this.srpClientSession.step1(e.username, this.password, e.salt, e.public_B),
     7 
     8         null !== this.password && this.inputPassword.val(Array(this.password.length + 1).join(this.passwordFill)),
     9 
    10             this.inputUseSrp.val("true"),
    11             this.inputPublicA.val(this.srpClientCredentials.publicA.toString(16)),
    12 
    13             this.inputClientEvidenceM1.val(this.srpClientCredentials.clientEvidenceM1.toString(16))
    login.js的onSuccess方法
    // 在原来的基础上加了var navigator = {}; 以免rhino报错
    // https://github.com/xcr1234/overwatch/blob/master/src/main/resources/srp.js
    srp.js

    5。问题

    在登录成功后自动跳转(redirect)有问题,目前只能手动跳转

     

  • 相关阅读:
    hdu1852 Beijing 2008
    hdu-2582 f(n)---找规律+素数筛法
    hdu-1452 Happy 2004---因子和+逆元
    LightOJ-1028 Trailing Zeroes (I)---因子数目
    hdu1215 七夕节---因子和
    因子和&&因子数
    hdu-1492 The number of divisors(约数) about Humble Numbers---因子数公式
    hdu-2136 Largest prime factor---巧用素数筛法
    欧拉函数
    BZOJ4418: [Shoi2013]扇形面积并
  • 原文地址:https://www.cnblogs.com/xcr1234/p/6991163.html
Copyright © 2020-2023  润新知