一、介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题
selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器
from selenium import webdriver #导入模块,然后产生一个浏览器对象
browser=webdriver.Chrome()
browser=webdriver.Firefox()
browser=webdriver.PhantomJS()
browser=webdriver.Safari()
browser=webdriver.Edge()
二、安装
1、selenium+chromedriver
pip3 install selenium
下载chromdriver.exe放到python安装路径的scripts目录中即可,可以在notes.txt中查看每个版本适用与那个浏览器
下载链接:http://npm.taobao.org/mirrors/chromedriver/
#验证安装
C:UsersAdministrator>python3
Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from selenium import webdriver
>>> driver=webdriver.Chrome() #弹出浏览器,产生一个浏览器对象,后续就是通过这个浏览器对象来操作浏览器
>>> driver.get('https://www.baidu.com') #控制浏览器访问url
>>> driver.page_source #打印访问url后返回的html信息
#注意:
selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver
下载链接:https://github.com/mozilla/geckodriver/releases
2、selenium+phantomjs
#PhantomJS 是一个无界面的webkit内核浏览器,你可以把它当作一个没有界面的 Safari
pip3 install selenium
下载phantomjs,解压后把phantomjs.exe所在的bin目录放到环境变量中
下载链接:http://phantomjs.org/download.html
#验证安装
C:UsersAdministrator>phantomjs
phantomjs> console.log('egon gaga')
egon gaga
undefined
phantomjs> ^C
C:UsersAdministrator>python3
Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from selenium import webdriver
>>> driver=webdriver.PhantomJS() #无界面浏览器
>>> driver.get('https://www.baidu.com')
>>> driver.page_source
三、基本使用
from selenium import webdriver #驱动浏览器
from selenium.webdriver import ActionChains #作用链,主要用作滑动验证
from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys #键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait #与EC联用,等待页面中的某个元素被加载完成
browser=webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
input_tag=browser.find_element_by_id('kw') #通过id的方式查找元素,与input_tag=browser.find_element(By.CSS_SELECTOR,'#kw')的结果一样
input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u,在这个input标签内输入查找的字符
input_tag.send_keys(Keys.ENTER) #输入回车或者是查找到提交按钮点击都可以(# input_tag.click())
wait=WebDriverWait(browser,10) #产生一个等待的对象
wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒
print(browser.page_source) #获取返回的网页html
print(browser.current_url) #获取返回的网页url
print(browser.get_cookies()) #获取返回的网页cookie
finally:
browser.close() #无论怎样关闭浏览器