• Android实战——jsoup实现网络爬虫,糗事百科项目的起步



    本篇文章包括以下内容:

    • 前言
    • jsoup的简介
    • jsoup的配置
    • jsoup的使用
    • 结语

    对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持。本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是完全没问题的

    jsoup的学习需要结合前端的基础知识,爬取前端的数据,如果你学过JS,那么你可以自己完全不用看文档的情况下,使用该框架,因为其设计与JS的使用几乎相同,废话不多说,开车啦

    使用项目原话:jsoup是一个Java库来处理实际的HTML。它提供了一个非常方便的API来提取和操纵数据,使用最好的DOM,CSS和jquery-like方法

    项目地址:https://github.com/jhy/jsoup
    中文文档:http://www.open-open.com/jsoup/

    jsoup的配置很简单,需要在gradle中添加以下依赖

    由于jsoup需要获取网络数据,所以记得添加网络权限

    一、获取HTML

    jsoup提供两种网络请求,get和post,使用代码也及其简单,我们首先爬取糗事百科首页的HTML。注意:由于是网络请求操作,必须放在子线程中运行,否则4.4以上的版本会报错

    ① get方式

    ② post方式

    这里对post的参数介绍一下

    • connect:设置连接的Url
    • data:设置post的键值对数据
    • userAgent:设置用户代理(请求头的东西,可以判断你是PC还是Mobile端)
    • cookie:设置缓存
    • timeout:设置请求超时
    • post:发送post请求

    既然已经获取HTML的Document对象了,接下来就是分析Html元素的时候了

    二、获取Html元素

    ① 网页端

    以糗事百科为例子,我们查看糗事百科首页的数据对应的Html元素是什么,我们可以通过F12,找到对应的Html元素

    可以看到一个a标签就是文章详情的内容,我们可以通过这个a标签的class=”contentHerf”作为唯一标识来获取该链接,获取之后,继续爬取详情页的文章详细内容,所以我们通过爬取的a标签的链接进入该文章的详情页

    当然也有一些详情页有图片的,我们可以通过图片的的class=”thumb”作为唯一标识来爬取图片里面的链接

    由于糗事百科采用分页加载的情况,我们需要在爬取完第一张内容后,接着爬取第二章的内容,下面是糗事百科的分页Url的规则,很简单,我们可以通过一个循环就可以了

    好了,分析完网页端之后,就应该在我们的Android端采用代码,将上面的步骤实现出来了

    ② Android端

    通过上面的分析后,可以总结我们需要实现的步骤有:

    1. 爬取主页的详情页url
    2. 进入详情页爬取内容和图片
    3. 循环爬取第二页、第三页…

    聪明的你,可能会想到第四步第五步…

    1. 封装Bean对象
    2. 使用ListView填充内容
    3. 爬取日期、作者、评论等内容完善项目

    1) 爬取主页的详情页url

    爬取主页的url可以通过a标签的class=”contentHerf”,我们通过jsoup的属性选择器来实现,这里会用到css知识,jsoup中文文档也有很详细的介绍

    这里对使用到的对象进行介绍

    • Document:相当于一个Html文件
    • Elements:相当于一个标签的集合
    • Element:相当于一个标签

    这里要注意Elements与Element的toString()方法和text()方法

    • toString():打印出来的是标签的Html内容
    • text():打印出来的是标签对应的文本内容

    css选择器

    • select():获取符合属性选择器要求的标签内容
    • 或getElementById:获取符合ID选择器要求的标签内容
    • 或getElementsByTag:获取符合Tag选择器要求的标签内容

    2) 进入详情页爬取内容和图片

    这段代码也相当简单,这里就不多解释了

    3) 循环爬取第二页、第三页…

    这里只需要嵌套一个循环进去就可以了,完整代码如下

    4) 当然,我们爬取到的内容之后,毫无疑问就是要封装成对象,通过ArrayList存储起来,这样你的数据源就解决了

    5) 后面爬取作者、日期、评论等信息就由你们去练习了,雅思7分有多难然后界面一仿,项目就出来了

    三、爬取结果

    网络爬虫虽然带来了很多数据源的问题,但很多网站都已经通过一些技术实现反爬虫的效果了,所以大家还是以学习jsoup为主,不管是Android端还是Web端jsoup的用处很广泛,所以掌握起来是必须的,听说豆瓣和知乎都可以爬出来哦,想做项目的同学可以去试试哦

  • 相关阅读:
    oculus按键大全
    10 soundJs 初体验
    09 获取服务器时间
    08 基本数据类型转换
    07 如果再使用animateCC2018或者苹果系统使用animate时出现Uncaught ReferenceError: lib is not defined的错误
    AS3.0和php数据交互POST方式
    06 显示fps帧频
    05 js利用ajax向服务器发送请求并返回json值
    04 ajax执行php并传递参数
    03php拉取服务器信息并生成json
  • 原文地址:https://www.cnblogs.com/zhanglixina/p/9603706.html
Copyright © 2020-2023  润新知