• htmlunit抓取js执行后的网页源码


    上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了。。

    运行了几次 发现使用URLConnection 得到的网页源码和浏览器直接查看的不同。 URLConnection 使用IO流读取到的源码

    只有积分  没有访问量了

    而使用浏览器访问 直接查看源码

    有访问。

    这也就导致了我的程序不能用了  需要更新了大哭

    想想原因   可能是幕后主使人把访问量放在了js里面   动态展示,而我使用URLConnection 访问的静态界面  确确实实没有收到。

    于是开始百度了  百度过来 百度过去。。

    发现了一个回复了三年还没有结贴的帖子

    java爬虫项目,如何获取js执行后的完整网页源代码?  

    里面回复了好多方法  发现有个htmlunit  于是就自己测试一下
    发现真的可以。得到了js执行后的源码。
    废话不说了。
    方法如下
    1. public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {  
    2.         // TODO Auto-generated method stub  
    3.         WebClient wc=new WebClient(BrowserVersion.FIREFOX_24);  
    4.         wc.setJavaScriptTimeout(5000);  
    5.         wc.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书  
    6.         wc.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本   
    7.         wc.getOptions().setCssEnabled(false);//禁用css支持  
    8.         wc.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常  
    9.         wc.getOptions().setTimeout(100000);//设置连接超时时间  
    10.         wc.getOptions().setDoNotTrackEnabled(false);   
    11.         HtmlPage page=wc.getPage("http://blog.csdn.net/su20145104009?viewmode=contents");  
    12.           
    13.         String res=page.asText();  
    14.         //处理源码  
    15.         deal(res);  
    16.           
    17.     }  

    最后得到的源码如下:
    其它的代码和点击打开链接 这篇文章相比几乎没变。如果不明白 可以去看一下  这里就不再赘述了
     
    执行后  成功写入到txt文档
    使用了htmlunit会弹出好多异常警告
    加上这些代码  就会消失了~
    1. LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log",    "org.apache.commons.logging.impl.NoOpLog");  
    2.   
    3.         java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")  
    4.             .setLevel(Level.OFF);  
    5.   
    6.         java.util.logging.Logger.getLogger("org.apache.commons.httpclient")  
    7.             .setLevel(Level.OFF);  

    由于我们在这里 引入了htmlunit 的jar包  .那么再用上次的脚本批量处理 就行不通了 ~
    而且要引入的jar包也不是一个  是多个  所以要批量处理了
    首先我们要把所有要用的jar包 使用-cp命令导入。
    可是htmlunit的jar包太多了  所以想到一个方法  使用for循环遍历htmlunit文件夹里面的jar文件  将其处理为一个字符串 然后再使用-cp命令 全部代码如下
    1. echo off  
    2. setlocal enabledelayedexpansion  
    3. ::定义一个字符串  
    4. set str=  
    5. ::遍历htmlunit文件夹  
    6. for /f "delims=" %%a in ('dir /b "E:libhtmlunit-2.14-binlib*.jar"') do (  
    7. set "str=!str!E:libhtmlunit-2.14-binlib\%%a;"  
    8. )  
    9. echo on  
    10. e:  
    11. javac -cp .;%str% AutoMarkBlogView.java  
    12. java -cp .;%str% AutoMarkBlogView  
    13. pause  
    运行结果如下:


     
  • 相关阅读:
    VS2019离线包获取-安装-更新
    http升级https:IIS配置HTTPS
    http升级https:使用XCA生成的证书测试
    俺的分布式架构系统之计算机网络7
    俺的分布式架构系统之计算机网络6
    俺的分布式架构系统之计算机网络5
    俺的分布式架构系统之计算机网络4
    俺的分布式架构系统之计算机网络3
    俺的分布式架构系统之计算机网络2
    iOS Team Inhouse Provisioning Profile 刷新过期时间问题
  • 原文地址:https://www.cnblogs.com/telwanggs/p/6878623.html
Copyright © 2020-2023  润新知