• Python3.x:Selenium中的webdriver进行页面元素定位


    Python3.x:Selenium中的webdriver进行页面元素定位

    页面上的元素就像人一样,有各种属性,比如元素名字,元素id,元素属性(class属性,name属性)等等。webdriver就是利用元素的这些属性来进行定位的。

    可以用于定位的常用的元素属性:

    • id
    • name
    • class name
    • tag name
    • link text
    • partial link text
    • xpath
    • css selector

    对应于webdriver中的定位一个元素方法分别是:

    • driver.find_element_by_name() 
    • driver.find_element_by_id() 
    • driver.find_element_by_class_name()
    • driver.find_element_by_tag_name() 
    • driver.find_element_by_link_text() 
    • driver.find_element_by_partial_link_text() 
    • driver.find_element_by_xpath() 
    • driver.find_element_by_css_selector()

    相应的webdriver中的 定位一组元素的方法:

    • driver.find_elements_by_name()
    • driver.find_elements_by_id()
    • driver.find_elements_by_class_name()
    • driver.find_elements_by_tag_name()
    • driver.find_elements_by_link_text()
    • driver.find_elements_by_partial_link_text()
    • driver.find_elements_by_xpath()
    • driver.find_elements_by_css_selector()

    使用示例:

    • id 和name 定位
      #id 
      driver.find_element_by_id('kw')  
      #name
      driver.find_element_by_name('tj_trnews')  
    • class name和tag name定位
        #class name
        driver.find_element_by_class_name("s_ipt")  
       #span 元素,其中class="bg s_ipt_wr quickdelete-wrap",
       #注意一下其中的空格,空格在这里的作用是分割多个类名的。这个 class 属性有两个空格,那么的代表这个 class 属性中包含了 3 个类名。
        #<span id="s_kw_wrap" class="bg s_ipt_wr quickdelete-wrap"></span>
        #使用 WebDriver 中的 class_name 定位方式的话,就只能使用其中一个。
       driver.find_element_by_class_name("bg")
        或者
        driver.find_element_by_class_name("s_ipt_wr")
        或者
        driver.find_element_by_class_name("quickdelete-wrap")
      
        #tag name
        driver.find_element_by_tag_name('table')
    • link text 与partial link text 定位
      #通过linx text定位
      find_element_by_link_text("新闻")  
      find_element_by_link_text("贴吧")  
      #通过partail link text定位
      find_element_by_link_text("")  
      find_element_by_link_text("")  
    • XPath 定位(插件XPath Checker,Firefox的附件组件,可以直接右键查看元素的XPath。)
      '''
      XPath是一种文档定位语言。因为HTML可以看做是XML的一种实现,所以selenium用户可使用这种强大的语言在web应用中定位。
      绝对路径方法:
      从根元素写起,当元素层级很深的时候,路径写的会很长,阅读性不好,也很难维护。不建议使绝对路径这样的方法。
      相对路径方法:
      通过Firebug很容易得到相对路径的xpath,打开Firebug插件,在页面上的搜索文本框,就可以显示出xpath了;
      常用规则
        nodename    选取此节点的所有子节点
        /     从当前节点选取直接子节点
        //    从当前节点选取子孙节点
        .      选取当前节点
        ..     选取当前节点的父节点
        @    选取属性
      '''
      
      #通过xpath寻找,任意(*代表)id属性为’kw‘的元素
      driver.find_element_by_xpath("//*[@id='kw']").click() 
      #通过xpath寻找,任意(*代表)input属性为’kw‘的元素
      driver.find_element_by_xpath("//input[@id='kw']").click()  
      
      #需要根据上级目录的属性来定位当前元素
      #通过上一级目录的id 属性定位  
      find_element_by_xpath("//span[@id=’input-container’]/input") 
      #通过上三级目录的id 属性定位  
      find_element_by_xpath("//div[@id=’hd’]/form/span/input") 
      #通过上三级目录的name 属性定位 
      find_element_by_xpath("//div[@name=’q’]/form/span/input")
      
      from lxml import etree
      html = etree.parse('test.html',etree.HTMLParser())
      re = etree.tostring(html)
      
      #子节点选取
      result1 = html.xpath('//*') #选取所有节点
      result = html.xpath('//li') #选取所有li子孙节
      result2 = html.xpath('//li/a') #选取li节点的直接a直接点
      #文本获取和属性获取
      result1 = html.xpath('//a[@href="link4.html"]') #属性匹配
      result2 = html.xpath('//a[@href="link4.html"]/../@class') #父节点
      result3 = html.xpath('//a[@href="link4.html"]/text()') #文本获取
      result4 = html.xpath('//a/@href') #属性获取 注意区别与属性匹配
      #属性多只匹配
      result1 = html.xpath('//li[@class="li"]/a/text()') #匹配失败
      result2 = html.xpath('//li[@class="li li-first"]/a/text()') #匹配正确
      result3 = html.xpath('//li[contains(@class,"li")]/a/text()') #利用contains()函数进行属性多值匹配
      result4 = html.xpath('//li[contains(@class,"li") and @name = "item"]/a/text()') #多属性匹配
      #按序选择
      result1 = html.xpath('//li[1]/a/text()')
      result2 = html.xpath('//li[last()]/a/text()')
      result3 = html.xpath('//li[position()<3]/a/text()')
      #节点轴选择
      result1 = html.xpath('//li[1]/ancestor::*') #调用ancestor轴,获取所有祖先节点
      result2 = html.xpath('//li[1]/ancestor::div') #调用ancestor轴,限定获取div祖先节点
      result3 = html.xpath('//li[1]/attribute::*') #调用attribute轴,获取所有属性值
      result4 = html.xpath('//li[1]/child::a[@href="link1.html"]') #调用child轴并限定条件(这里加不加限定条件一样,只有一个子节点)
      result5 = html.xpath('//li[1]/descendant::span') #调用descendant轴,获取子孙节点并限定条件
      result6 = html.xpath('//li[1]/following::*') #调用following轴,获取当前节点后的所有节点并限定索引
      result7 = html.xpath('//li[1]/following::*[2]') #调用following轴,获取当前节点后的所有节点并限定索引
      result8 = html.xpath('//li[1]/following-sibling::*') #调用following-sibling轴,获取当前节点之后的所有同级节点
      #多值匹配
      xpath('//div[contains(@class,"a") and contains(@class,"b")]') #它会取class含有有a和b的元素
      xpath('//div[contains(@class,"a") or contains(@class,"b")]') #它会取class 含有 a 或者 b满足时,或者同时满足时的元素
    • CSS定位
      #这种定位方法是比较难理解
     获取元素后,解析元素的源码、属性值、文本内容:
    #返回一个object
    data = driver.find_elements_by_tag_name('table')[0]
    #返回html源码
    dataHtml = data.get_attribute('innerHTML')
    #返回ID值
    dataId = data.get_attribute('id')
    #返回文本内容
    dataText = data.text
  • 相关阅读:
    [LeetCode] Kth Smallest Element in a BST
    Dojo入门篇
    不要小看了get 与set
    怎样安装Windows7操作系统
    MFC Wizard创建的空应用程序中各个文件内容的解析
    hadoop hdfs空间满后重新启动不了
    树形结构——基本原理
    R语言pdf输出中文乱码处理
    Javascript基本概念梳理
    Java动态代理
  • 原文地址:https://www.cnblogs.com/lizm166/p/8367594.html
Copyright © 2020-2023  润新知