• Python 配置 selenium 模拟浏览器环境,带下载链接


    使用浏览器渲染引擎。直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句。

    这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,使用浏览器渲染方法,爬取动态网页变成了爬取静态网页。

    我们可以用Python的selenium库模拟浏览器完成抓取。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真正的用户在操作一样

    selenium 的安装与基本介绍

    selenium的安装非常简单,和其他的Python 库一样,我们可以用pip 安装。

    pip install selenium

    火狐浏览器:geckodriver.exe

      下载对应浏览器的版本 geckodriver.exe v15.0版本

      由于最新版火狐不在支持FireBug等开发工具,可以在https://ftp.mozilla.org/pub/firefox/releases/下载49版本以下的火狐,就可以增加Firebug等扩展了。

      我下载了火狐Firefox Setup 48.0b9.exe,安装后,在https://github.com/mozilla/geckodriver/releases/下载最新版geckodriver,将geckodriver.exef放在C:Program Files (x86)Mozilla Firefox目录下(就是你装浏览器的目录哈),并将其加入环境变量,

    
    

      #!/usr/bin/python
      #coding: utf-8


    from
    selenium import webdriver driver = webdriver.Firefox() driver.get('https://www.baidu.com')

    IE11浏览器:IEDriverServer.exe  

      IE浏览器驱动下载链接:http://selenium-release.storage.googleapis.com/index.html(需爬梯),安装最新版v3.9,将其放在C:WindowsSystem32目录下(不用加入环境变量,默认在环境变量中),运行如下代码,发现报错如下,降低版本为3.0.0,重新运行代码发现成功。

    #!/usr/bin/python
    #coding: utf-8
    from selenium import webdriver
    driver = webdriver.Ie()
    driver.get('http://www.baidu.com')
  • 相关阅读:
    Building fresh packages卡很久
    后端阿里代码扫描
    npm 使用淘宝镜像
    git镜像
    mysql安装8.0.18
    idea2019.2.2版本破解
    JDK下载很慢
    解决GitHub下载速度慢下载失败的问题
    Hashtable多线程遍历问题
    2-18 求组合数 注:代码有问题找不出哪儿错了
  • 原文地址:https://www.cnblogs.com/xiaohe520/p/10767693.html
Copyright © 2020-2023  润新知