一、介绍及安装
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=webdriver.Chrome() browser=webdriver.Firefox() browser=webdriver.PhantomJS() browser=webdriver.Safari() browser=webdriver.Edge()
#pip3 install selenium 下载完成以后,需要下载安装浏览器驱动,它自带的驱动是火狐, chrome #国内镜像网站地址: http://npm.taobao.org/mirrors/chromedriver/2.38/ #最新的版本找: https://sites.google.com/a/chromium.org/chromedriver/downloads #无界面 下载phantomjs,解压后把phantomjs.exe所在的bin目录放到环境变量 下载链接:http://phantomjs.org/download.html
二 基本使用
from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作
browser=webdriver.Chrome() try: browser.get('https://www.baidu.com') input_tag=browser.find_element_by_id('kw') input_tag.send_keys('华为') #python2中输入中文错误,字符串前加个u input_tag.send_keys(Keys.ENTER) #输入回车 print(browser.page_source) print(browser.current_url) print(browser.get_cookies()) finally: browser.close()