爬虫（二）—— 请求库（二）selenium请求库

selenium请求库

一、什么是selenium

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE），编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器，自动化测试工具，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。
selenium大部分用在自动化测试中
selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种常见的浏览器

from selenium import webdriver
browser=webdriver.Chrome()    # Chrome浏览器驱动
browser=webdriver.Firefox()	  # Firefox浏览器驱动  selenium自带的驱动是Firefox
browser=webdriver.PhantomJS()    # 不跳出界面浏览器驱动，在后台运行浏览器
browser=webdriver.Safari()
browser=webdriver.Edge()

二、环境搭建

1、在python中使用selenium需要先安装对应的模块

pip install selenium

2、安装浏览器驱动程序

selenium的原理是操作驱动浏览器来完成对目标页面的请求与渲染，所以需要下载对应的浏览器驱动程序，推荐使用chrome，默认的是火狐浏览器驱动

Chrome驱动镜像地址：https://npm.taobao.org/mirrors/chromedriver/

需要注意的是，驱动程序版本需要与浏览器版本对应，你可以打开chrome的关于浏览器查看到具体版本。

驱动与浏览器的版本对应关系

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72
ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71
ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71
ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70
ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69
ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68
ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68
ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67
ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66
ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65
ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64

三、使用selenium模块

1、使用chrome并设置为无GUI模式

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('window-size=1920x3000') 	# 指定浏览器分辨率
chrome_options.add_argument('--disable-gpu') 	# 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--hide-scrollbars') 	# 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false')	 # 不加载图片, 可以提升速度
chrome_options.add_argument('--headless') 	# 浏览器不提供可视化页面. linux下如果系统如果无界面不加这条会启动失败

driver=webdriver.Chrome("驱动绝对路径 如果环境变量中有则可以不写",chrome_options=chrome_options)
driver.get('https://www.baidu.com')
print('hao123' in driver.page_source)
driver.close() 	# 切记关闭浏览器，回收资源
# selenium+谷歌浏览器headless模式

2、使用chrome有GUI模式

（1）基本使用

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

try:
    browser=webdriver.Chrome('驱动绝对路径')  # 如果把驱动包放在python的Scripts中，不用在指定路径
    browser.get('https://www.baidu.com')    # 利用浏览器发请求
    wait= WebDriverWait(brower,5)   # 浏览器加载需要时间，需要等待5s等浏览器加载完
finally:
    driver.close()     # 无论是否报异常都关闭驱动，不关闭可能导致浏览器一直在后台运行

（2）实现搜索功能

from selenium import webdriver
from selenium.webdriver import ActionChains  # 破解滑动验证码相关
from selenium.webdriver.common.by import By	 # 按照什么方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys 	# 键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait 	# 等待页面加载某些元素

browser=webdriver.Chrome('驱动路径')
try:
    browser.get('https://www.taobao.com')

    wait=WebDriverWait(browser,10)   # 浏览器等待10s，等待加载完毕
    
    input_tag = wait.until(EC.presence_of_element_located((By.ID,'q'))) # 等到id为q的元素加载完毕,最多等10秒
    input_tag.send_keys('美女') 	# python2中输入中文错误，字符串前加个u
    input_tag.send_keys(Keys.ENTER) 	# 输入回车
    
    print(browser.page_source)
    print(browser.current_url)
    print(browser.get_cookies())

finally:
    browser.close()

3、显示等待与隐式等待

显示等待：等待n秒，等某一个指定的元素加载完毕即可

wait=WebDriverWait(driver,3)
wait.until(EC.presence_of_element_located((By.ID,'q')))# 等待id为q的元素加载完毕,最多等10s

隐式等待：等待n秒，等整个页面加载完毕
```
brower.implicitly_wait(3)
```

4、查找元素——find_element_by_*

from selenium import webdriver
from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素
import time

brower=webdriver.Chrome('浏览器驱动路径')
brower.get('https://doc.scrapy.org/en/latest/_static/selectors-sample1.html')
wait=WebDriverWait(driver,10)     # 显示等待

try:
    # 1、find_element_by_id
    print(brower.find_element_by_id('kw'))

    # 2、find_element_by_link_text     # 根据超链接文本内容查找超链接的元素
    login=brower.find_element_by_link_text('登录')
    print(login.get_attribute('href'))    # 获取超链接元素的链接
    login.click()

    # 3、find_element_by_partial_link_text    # 不完整链接文本类容，返回的是一个列表
    login=brower.find_elements_by_partial_link_text('录')[0]
    login.click()

    # 4、find_element_by_tag_name  # 根据 标签名字 找元素
    print(brower.find_element_by_tag_name('a'))

    # 5、find_element_by_class_name
    button=wait.until(EC.element_to_be_clickable((By.CLASS_NAME,'tang-pass-footerBarULogin')))
    button.click()

    # 6、find_element_by_name   # 根据name属性的值获取元素
    input_user=wait.until(EC.presence_of_element_located((By.NAME,'userName')))
    input_pwd=wait.until(EC.presence_of_element_located((By.NAME,'password')))
    commit=wait.until(EC.element_to_be_clickable((By.ID,'TANGRAM__PSP_10__submit')))

    input_user.send_keys('18611453110')
    input_pwd.send_keys('xxxxxx')
    commit.click()

    # 7、find_element_by_css_selector    # 通过css选择器查找元素
    brower.find_element_by_css_selector('#kw')

    # 8、find_element_by_xpath

    time.sleep(5)

finally:
    driver.close()

5、xpath查找元素—— brower.find_element_by_id('tag_id')

xpath官网：http://selenium-python.readthedocs.io/locating-elements.html

（1）/ 与 //

/   # 根文本下找，只在子代中找
//     # 根文本下的所有子子孙孙都找

（2）标签的属性

print(tag.text)    # 获取这个标签的文本内容
print(tag.get_attribute('class'))    # 获取这个标签的class属性
print(tag.tag_name)    # 获取这个标签的标签名字
print(tag.location)    # 获取该标签的位置（左上角坐标（x，y））
print(tag.size)      # 获取标签的大小，可以获取宽和高，以及获取右下角坐标（x+宽，y+高）

（3）具体使用

from selenium import webdriver
from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait # 等待页面加载某些元素
import time

brower = webdriver.Chrome('F:py_spider_exerciseday01chromedriver.exe')
brower.get('https://www.baidu.com')
brower.implicitly_wait(5)

# 1.  /  根文本下搜索div
tag = brower.find_element_by_xpath('/div')   # 根文本下搜索div
print(tag)   # 空列表，根文本下，找不到div，只有html

# 2. //  根文本下子孙文本中搜索一个div
tag = brower.find_element_by_xpath('//div')   # 根文本下全文搜索，获取第一个div
print(tag.text)    # 获取这个标签的文本内容
print(tag.get_attribute('class'))    # 获取这个标签的class属性
print(tag.tag_name)    # 获取这个标签的标签名字
print(tag.location)    # 获取该标签的位置（左上角坐标（x，y））
print(tag.size)      # 获取标签的大小，可以获取宽和高，以及获取右下角坐标（x+宽，y+高）

# 3. //   根文本下子孙文本中搜索所有的div
tag = brower.find_elements_by_xpath('//div')   # 根文本下全文搜索，获取所有的div
print(tag[2].text)    # 获取第三个标签的文本内容
print(tag[2].get_attribute('class'))    # 获取第三个标签的class属性
print(tag[2].tag_name)    # 获取第三个标签的标签名字

# 4.   //div/img   先在根文本下所有子孙文本中找到div，在找到的div下的子代中继续找img
tag = brower.find_element_by_xpath('//html//div')
print(tag.tag_name)

# 5.   //div//img   先在根文本下所有子孙文本中找到div，在找到的div下的所有子孙中继续找img
tag = brower.find_element_by_xpath('//html//div')
print(tag.tag_name)

# 6.  * 表示所有标签，[@ ] 可以指定属性——按照这个属性找
tag=driver.find_elements_by_xpath('//*[@id = "images"]/a[4]/img') # 从根标签下的所有标签中找到id为imges的标签，再改标签字子标签中的第4个子标签，然后继续找到子标签中的所有img标签

# 7.  div[contains(@A, 'tttt')] 找某一个标签(div)，这个标签的A属性包含tttt
tags=driver.find_elements_by_xpath('//a[contains(@href,"image")]')

# 8.   div[img/@A='ttt']     找某一个标签（div），这个标签下的子标签（img）的A属性是ttt
tag=driver.find_element_by_xpath('//a[img/@src="image1_thumb.jpg"]')

doc='''
<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
   <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
   <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
   <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
   <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
   <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>
  </div>
 </body>
</html>
'''
from lxml import etree

html=etree.HTML(doc)
# html=etree.parse('search.html',etree.HTMLParser())

# / 一个斜杠表示子级标签
# // 两个斜杠表示子孙标签

# 1 所有节点
# a=html.xpath('//*')
# 2 指定节点（结果为列表）
# a=html.xpath('//head')
# 3 子节点，子孙节点
# a=html.xpath('//div/a')
# a=html.xpath('//body/a') #无数据
# a=html.xpath('//body//a')
# 4 父节点
# a=html.xpath('//body//a[@href="image1.html"]/..')
# a=html.xpath('//body//a[1]/..')
# 也可以这样
# a=html.xpath('//body//a[1]/parent::*')
# 5 属性匹配
# a=html.xpath('//body//a[@href="image1.html"]')

# 6 文本获取
# a=html.xpath('//body//a[@href="image1.html"]/text()')

# 7 属性获取
# a=html.xpath('//body//a/@href')
# # 注意从1 开始取（不是从0）
# a=html.xpath('//body//a[1]/@href')
# 8 属性多值匹配
#  a 标签有多个class类，直接匹配就不可以了，需要用contains
# a=html.xpath('//body//a[@class="li"]')
# a=html.xpath('//body//a[contains(@class,"li")]')
# a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 9 多属性匹配
# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')
# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')
# # a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 10 按序选择
# a=html.xpath('//a[2]/text()')
# a=html.xpath('//a[2]/@href')
# 取最后一个
# a=html.xpath('//a[last()]/@href')
# 位置小于3的
# a=html.xpath('//a[position()<3]/@href')
# 倒数第二个
# a=html.xpath('//a[last()-2]/@href')
# 11 节点轴选择
# ancestor：祖先节点
# 使用了* 获取所有祖先节点
# a=html.xpath('//a/ancestor::*')
# # 获取祖先节点中的div
# a=html.xpath('//a/ancestor::div')
# attribute：属性值
# a=html.xpath('//a[1]/attribute::*')
# child：直接子节点
# a=html.xpath('//a[1]/child::*')
# descendant：所有子孙节点
# a=html.xpath('//a[6]/descendant::*')
# following:当前节点之后所有节点
# a=html.xpath('//a[1]/following::*')
# a=html.xpath('//a[1]/following::*[1]/@href')
# following-sibling:当前节点之后同级节点
# a=html.xpath('//a[1]/following-sibling::*')
# a=html.xpath('//a[1]/following-sibling::a')
# a=html.xpath('//a[1]/following-sibling::*[2]')
# a=html.xpath('//a[1]/following-sibling::*[2]/@href')

6、清空输入框—— input_tag.clear()

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

brower = webdriver.Chrome('chrome驱动绝对路径')
try:
    brower.get('https://www.tmall.com/')
    brower.implicitly_wait(3)
    input_tag = brower.find_element_by_id('mq')
    input_tag.send_keys('python')
    input_tag.send_keys(Keys.ENTER)
    time.sleep(3)
    input_tag.clear()     # 清空输入框中的内容
    input_tag = brower.find_element_by_id('mq')
    input_tag.send_keys('java')   # 控制标签输入
    input_tag.send_keys(Keys.ENTER)      # 控制键盘回车
    time.sleep(3)
finally:
    brower.close()

7、frame切换—— brower.switch_to.frame('小页面的id')

frame相当于一个单独的网页，在父frame里是无法直接查看到子frame的元素的，必须switch_to_frame切到该frame下，才能进一步查找
iframe目前已经被抛弃，很少存在大页面套小页面的情况
直接利用brower.find_element_by_id('droppable')无法找到小页面中的元素，需要切换到小页面

例如：

# 切换到到小页面
brower=webdriver.Chrome('驱动绝对路径')
brower.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

brower.implicitly_wait(3)   # 隐式等待3秒

brower.switch_to.frame('iframeResult')     # 切换到小的frame页面中
brower.find_element_by_id('droppable')

brower.close()

8、动作链——ActionChains(brower).perform()

点击拖拽页面元素，常在验证时应用，例如博客园中用户登录验证拖拽图片

from selenium.webdriver import ActionChains

ActionChains(brower).click_and_hold(sourse).perform() # 点击不释放source标签，perform()表示执行
标签.location['x']    # 获取标签的x坐标
ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()  # 每次偏移2，移动

    from selenium.webdriver import ActionChains
    
    driver.switch_to.frame('iframeResult') # 切换到iframeResult
    sourse=driver.find_element_by_id('draggable')   # 拖拽元素
    target=driver.find_element_by_id('droppable')   # 目标元素

# 方式一：基于同一个动作链串行执行——————水平位置上拖拽
    actions=ActionChains(driver) # 拿到动作链对象
    actions.drag_and_drop(sourse,target)  # 把动作放到动作链中，一次性移动到目标位置
    actions.perform()	 # perform(),执行
    
# 方式二：不同的动作链，每次移动的位移都不同   -----  每一次获取动作链对象时都要重新生成
	ActionChains(driver).click_and_hold(sourse).perform()
    distance=target.location['x']-sourse.location['x']   # 两个元素x坐标相减获取移动距离

    track=0      # 已移动距离
    while track < distance:
        ActionChains(driver).move_by_offset(xoffset=2,yoffset=0).perform()
        track+=2

    ActionChains(driver).release().perform()

9、其它操作（自动化测试常用）

# 1. 前进后退
brower.back()    # 后退
browser.forward()   # 前进

# 2.选项卡（标签页）操作
# 选项卡管理：切换选项卡，有js的方式windows.open,有windows快捷键：ctrl+t等，最通用的就是js的方式
import time
from selenium import webdriver

browser=webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')

print(browser.window_handles) 	# 获取所有的选项卡
browser.switch_to.window(browser.window_handles[1])   # 切换到第一个选项卡
browser.get('https://www.taobao.com')    # 第一个选项卡访问淘宝
time.sleep(10)
browser.switch_to.window(browser.window_handles[0])   # 切换到第二个选项卡
browser.get('https://www.sina.com.cn')   # 第二个选项卡，访问新浪
browser.close()

相关阅读:
进程和程序
 linux socket基本知识
 window核心编程第五章作业
 树的基本操作(C语言)
每天都在反省自己，但是每天却都浑浑噩噩
 Windows核心编程内核对象
 还没完整看过一本技术的书籍啊
 管道
 Memory Layout of a C Program(7.6)
cpio命令用法
原文地址：https://www.cnblogs.com/linagcheng/p/10831411.html