最近,在公司的项目中需要模拟浏览器操作,于是选用了Python版的Selenium,在此将一些使用心得记录下来。
1.如果页面的某些元素是ajax动态生成,则此类元素不能立即得到,需要等待一定的时间,而且时间会由于网络延迟等原因长短不定。如果使用time.sleep(second)去等待一个定死的时间,不是好办法,这时就需要用到WebDriverWait模块,去等待元素可用,一旦可用,立即执行下面的逻辑。
有两种等待,显示等待和隐式等待
a.显示等待
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Firefox() driver.get("http://somedomain/url_that_delays_loading") try: element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "myDynamicElement")) ) finally: driver.quit()
上例中,会在10秒内,以指定频率(默认500ms)来试探定位元素(presence_of_element_located),如果10秒内找到了,则逻辑继续,如果10秒内没找到,则抛出超时异常(TimeoutException )。
presence_of_element_located是期待的状况(Expected Conditions)的一种,Selenium为了方便我们,定义了多种期待的状况,比如
- visibility_of_element_located
- text_to_be_present_in_element
具体期待状况可以查看手册
b.隐式等待
隐式等待告诉WebDriver在设定好的时间内,以轮询的方式查找DOM。
隐式等待时间默认为0,作用于全局,在整个Webdriver对象的生命周期内都会生效。
from selenium import webdriver driver = webdriver.Firefox() driver.implicitly_wait(10) # seconds driver.get("http://somedomain/url_that_delays_loading") myDynamicElement = driver.find_element_by_id("myDynamicElement")
2.webdriver.get(url)加载时间太长,阻塞了下面的逻辑。
首先,按官方手册所讲,WebDriver需要等页面完成onload事件(window.onload)才能继续下面的逻辑,如果没完成,则会一直加载,直到超时。
比如我遇到的状况,某页面内,某个js脚本不断以长连接形式发起回调,导致页面无法完成onload事件,WebDriver一直等待,直到等待30000ms,也就是5分钟后,WebDriver才放弃获取,抛出超时异常。
5分钟太久了,我不要等待那么长时间,那么就改一下这个值
try: driver.set_page_load_timeout(5) #给你5秒时间对页面进行加载 driver.get(url) except selenium.common.exceptions.TimeoutException: driver.execute_script('window.stop()')
以上使用了set_page_load_timeout方法,参数就是等待的秒数,我是根据此页面的通常加载时间进行设定等待时间的。
超时后就不加载了,直接抛出异常。在捕捉异常后,可以继续下面的逻辑了,当然,由于不确定性,要考虑重试、显式等待或隐式等待等逻辑。
3.一些零碎的需要注意的地方
a.如果用到页面内的iframe内的元素,则首先要driver.switch_to_frame(找到的iframe元素)
b.页面跳转后,要操作跳转后的页面,则要使用driver.switch_to.default_content()
c.如果要给某个页面加cookie,切记要打开后再加,也就是driver.add_cookie要在driver.get(url)之后,否则会抛出异常WebDriverException: Message: Document is cookie-averse
我会持续将使用心得记录在这里。