• Selenium with Python使用心得


    官方手册链接

    最近,在公司的项目中需要模拟浏览器操作,于是选用了Python版的Selenium,在此将一些使用心得记录下来。

    1.如果页面的某些元素是ajax动态生成,则此类元素不能立即得到,需要等待一定的时间,而且时间会由于网络延迟等原因长短不定。如果使用time.sleep(second)去等待一个定死的时间,不是好办法,这时就需要用到WebDriverWait模块,去等待元素可用,一旦可用,立即执行下面的逻辑。

    有两种等待,显示等待和隐式等待

    a.显示等待

    from selenium import webdriver
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    
    driver = webdriver.Firefox()
    driver.get("http://somedomain/url_that_delays_loading")
    try:
        element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "myDynamicElement"))
        )
    finally:
        driver.quit()

    上例中,会在10秒内,以指定频率(默认500ms)来试探定位元素(presence_of_element_located),如果10秒内找到了,则逻辑继续,如果10秒内没找到,则抛出超时异常(TimeoutException )。

    presence_of_element_located是期待的状况(Expected Conditions)的一种,Selenium为了方便我们,定义了多种期待的状况,比如

    • visibility_of_element_located
    • text_to_be_present_in_element

    具体期待状况可以查看手册

    b.隐式等待

    隐式等待告诉WebDriver在设定好的时间内,以轮询的方式查找DOM。

    隐式等待时间默认为0,作用于全局,在整个Webdriver对象的生命周期内都会生效。

    from selenium import webdriver
    
    driver = webdriver.Firefox()
    driver.implicitly_wait(10) # seconds
    driver.get("http://somedomain/url_that_delays_loading")
    myDynamicElement = driver.find_element_by_id("myDynamicElement")

    2.webdriver.get(url)加载时间太长,阻塞了下面的逻辑。

    首先,按官方手册所讲,WebDriver需要等页面完成onload事件(window.onload)才能继续下面的逻辑,如果没完成,则会一直加载,直到超时。

    比如我遇到的状况,某页面内,某个js脚本不断以长连接形式发起回调,导致页面无法完成onload事件,WebDriver一直等待,直到等待30000ms,也就是5分钟后,WebDriver才放弃获取,抛出超时异常。

    5分钟太久了,我不要等待那么长时间,那么就改一下这个值

        try:
            driver.set_page_load_timeout(5) #给你5秒时间对页面进行加载
            driver.get(url)
        except selenium.common.exceptions.TimeoutException:
            driver.execute_script('window.stop()') 

    以上使用了set_page_load_timeout方法,参数就是等待的秒数,我是根据此页面的通常加载时间进行设定等待时间的。

    超时后就不加载了,直接抛出异常。在捕捉异常后,可以继续下面的逻辑了,当然,由于不确定性,要考虑重试、显式等待或隐式等待等逻辑。

    3.一些零碎的需要注意的地方

    a.如果用到页面内的iframe内的元素,则首先要driver.switch_to_frame(找到的iframe元素)

    b.页面跳转后,要操作跳转后的页面,则要使用driver.switch_to.default_content()

    c.如果要给某个页面加cookie,切记要打开后再加,也就是driver.add_cookie要在driver.get(url)之后,否则会抛出异常WebDriverException: Message: Document is cookie-averse

    我会持续将使用心得记录在这里。

  • 相关阅读:
    MYSQL数据类型——字符串类型
    MYSQL——记录长度
    MYSQL数据类型——时间日期类型
    MYSQL数据类型——数值类型
    为什么在 IDEA jsp 中直接使用 out.println 会出错
    花指令行为大赏
    EasyCpp 题解
    [SUCTF2019] hardcpp 题解
    洛谷 P1650 田忌赛马题解
    Dict 协议是什么
  • 原文地址:https://www.cnblogs.com/ch459742906/p/7663818.html
Copyright © 2020-2023  润新知