• 在view source页面保存下来的网页源码和保存网页得到的源码不同


    前言

    以前抓网页都是直接requests+bs4直接刚的,今天想拿一下拉钩的数据,就继续按照以下步骤来了:

    • 先找个想爬的网页,然后写解析功能
    • 批量爬,然后解析
    • 入库

    探究

    结果发现行不通了,用bs4去解析,结果连title都拿不到,而网页源码里明明是有的!于是用浏览器打开网页然后view source,在view source页面点击存储为文件,然后用vscode打开保存的网页,进行对比。发现,tmd内容居然不一样……好多标签在保存的网页中根本看不到。

    原因

    想一下原因,肯定是js造成的。于是又搜了一下这种现象,得知:

    保存源代码”是对源代码完整的保存下来,包括上面的图片链接,超链接的指向,都完完整整按照原本的样式保存下来了。并没有保存图片或者其他的一些文件。 而另存为的时候由浏览器(IE)自动生成一个和保存的网页文件名 + .files的文件夹,该文件夹中保存了网页上面所有的图片及一些外部链接CSS、Js脚本,并自动对网页上的链接进行修改,指向以网页文件名+.files的文件夹,这样就看其来整个网页是完整保存下来了。

    参考自:http://sky-xin.iteye.com/blog/1960546

    原来是浏览器的处理过程导致的,view source就是真的只能看到源代码里,未经浏览器处理的代码…有些非静态的东西,自然得等加载出来后才能看到…唔

  • 相关阅读:
    计算机通信
    笔记0402
    笔记0414
    vb6 VS vb.net int数据类型
    jQuery好网站
    jQuery实现图片翻滚
    jQuery获取一组单选按钮的值
    Redhat安装、使用及服务器应用FAQ
    js判断变量是否赋值(存在)
    IDE 与SATA区别
  • 原文地址:https://www.cnblogs.com/wswang/p/9405712.html
Copyright © 2020-2023  润新知