• python网页爬虫开发之六-Selenium使用


    chromedriver禁用图片,禁用js,切换UA
    selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
     
       
     
    from selenium import webdriver
     
    from fake_useragent import UserAgent
     
       
     
    ua = UserAgent().random
     
    print(ua)
     
    chrome_options = webdriver.ChromeOptions()
     
    prefs = {
     
    'profile.default_content_setting_values': {
     
    # 也可以这样写,两种都正确
     
    # 'profile.default_content_settings': {
     
    'images': 2, # 不加载图片
     
    'javascript': 2, # 不加载JS
     
    "User-Agent": ua, # 更换UA
     
    }
     
    }
     
    chrome_options.add_experimental_option("prefs", prefs)
     
    browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
     
    #这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
     
    url = "https://httpbin.org/get?show_env=1"
     
    browser.get(url)
  • 相关阅读:
    随感
    LIKE运算符
    数据库运行时的关键字先后顺序
    联表查询
    进程、线程、协程
    算法复杂度
    redis支持的数据类型
    面向对象编程和面向过程编程的区别总结
    判断对象的变量是否存在,isset和property_exists区别
    构造函数和析构函数
  • 原文地址:https://www.cnblogs.com/joxin/p/9850896.html
Copyright © 2020-2023  润新知