python网页爬虫开发之六-Selenium使用

python网页爬虫开发之六-Selenium使用

chromedriver禁用图片，禁用js，切换UA

selenium 模拟chrome浏览器，此时就是一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，所以爬取网页的速度很慢。如果可以不加载图片等操作，网页加载速度就会快不少，代码中列出了了禁用图片，禁用JS，切换UA的方法。

from selenium import webdriver

from fake_useragent import UserAgent

ua = UserAgent().random

print(ua)

chrome_options = webdriver.ChromeOptions()

prefs = {

'profile.default_content_setting_values': {

# 也可以这样写，两种都正确

# 'profile.default_content_settings': {

'images': 2, # 不加载图片

'javascript': 2, # 不加载JS

"User-Agent": ua, # 更换UA

}

}

chrome_options.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)

#这个网页可以显示浏览器的信息，这样我们就可以看到我们的UA信息，

url = "https://httpbin.org/get?show_env=1"

browser.get(url)
相关阅读:
随感
 LIKE运算符
 数据库运行时的关键字先后顺序
 联表查询
 进程、线程、协程
 算法复杂度
 redis支持的数据类型
 面向对象编程和面向过程编程的区别总结
 判断对象的变量是否存在，isset和property_exists区别
 构造函数和析构函数
原文地址：https://www.cnblogs.com/joxin/p/9850896.html