• 2019918练手爬虫日记


    今天找了一个国外的网站练手,页面不是很难,就类似于主页面下面有很多子页面,使用火狐浏览器+xpath helper ,一切都像平时那样的随意,一切都很平常,但是在运行的时候将解析出来的数据进行打印,毫不犹豫的给到我了4个【】 ,ok没关系,代码出错了还好,接下来就从界面开始一点点的分析,沃德天,和我开始分析的一模一样,接下来开始质疑是不是js,沃德天,这个渣渣网站根本不是js,每个都是get方式,ok继续分析,沃德天,搞不出来了,那就问别人。

    找了一个爬虫的群然后丢代码,丢问题,丢网站,丢自己尝试过的方式,丢自己目前的思路(这其实是提问的一种艺术)

    里面先来了两个小白,居然质疑我的xpath解析式,我明明取的是@href ,他们居然告诉我要改成//text(),沃德天,谢谢你俩

    后面来了一个应该和我差不多风采的,也许技术比我强那么一点点,但是他觉对没有我帅!

    他使用的是这样的://a[contains(@href,'.aspx')]/@href

    contains()方法,查看了下xpath官方文档

    带图的是这样的,不带图的是下面这样:

    contains()函数当其第一个字符串参数
    包含有第二个字符串参数时返回 true.

    说的太官方了,接着我按照大佬的解析式,去原文查看了下对应的结果,

    发现是不太满意,因为aspx结尾的链接全搞进来了,并不是我想要的那块的链接, 没关系继续研究,

    突然有一股力量冲进了我的大脑,拿着浏览界面的内容去对比下网页源码,很好,看到一个了不得的东西。

     这是浏览界面,也就是xpath helper解析的那个。

    接下来是源码界面:

    完全没有tbody这个鬼东西,沃德天,接下来按照源码去解析,成功拿到需要的东西。

    最后总结一点:看到的不一定就是真的。保持理性的头脑,无时无刻你都是最帅的男人!

  • 相关阅读:
    AOP概述
    AOP-动态代理
    IOC容器和Bean的配置
    Spring框架概述
    异常
    Optional 类
    Stream API
    方法引用(Method References)
    函数式(Functional)接口
    stm8笔记1-搭建工程+孤独的小灯闪烁
  • 原文地址:https://www.cnblogs.com/meipu/p/11543979.html
Copyright © 2020-2023  润新知