• 在view source页面保存下来的网页源码和保存网页得到的源码不同


    前言

    以前抓网页都是直接requests+bs4直接刚的,今天想拿一下拉钩的数据,就继续按照以下步骤来了:

    • 先找个想爬的网页,然后写解析功能
    • 批量爬,然后解析
    • 入库

    探究

    结果发现行不通了,用bs4去解析,结果连title都拿不到,而网页源码里明明是有的!于是用浏览器打开网页然后view source,在view source页面点击存储为文件,然后用vscode打开保存的网页,进行对比。发现,tmd内容居然不一样……好多标签在保存的网页中根本看不到。

    原因

    想一下原因,肯定是js造成的。于是又搜了一下这种现象,得知:

    保存源代码”是对源代码完整的保存下来,包括上面的图片链接,超链接的指向,都完完整整按照原本的样式保存下来了。并没有保存图片或者其他的一些文件。 而另存为的时候由浏览器(IE)自动生成一个和保存的网页文件名 + .files的文件夹,该文件夹中保存了网页上面所有的图片及一些外部链接CSS、Js脚本,并自动对网页上的链接进行修改,指向以网页文件名+.files的文件夹,这样就看其来整个网页是完整保存下来了。

    参考自:http://sky-xin.iteye.com/blog/1960546

    原来是浏览器的处理过程导致的,view source就是真的只能看到源代码里,未经浏览器处理的代码…有些非静态的东西,自然得等加载出来后才能看到…唔

  • 相关阅读:
    HDU 5213 分块 容斥
    HDU 2298 三分
    HDU 5144 三分
    HDU 5145 分块 莫队
    HDU 3938 并查集
    HDU 3926 并查集 图同构简单判断 STL
    POJ 2431 优先队列
    HDU 1811 拓扑排序 并查集
    HDU 2685 GCD推导
    HDU 4496 并查集 逆向思维
  • 原文地址:https://www.cnblogs.com/wswang/p/9405712.html
Copyright © 2020-2023  润新知