• Selenium+PhantomJS使用初体验


    抓取使用Ajax技术完成的网页内容时可以使用Selenium+PhantomJS技术

    1.pip install selenium
    2.下载Phantomjs不需要用pip
     
    武汉科技大学首页有一块使用js异步加载的网页内容,如图

    抓取这一块内容的思路是:判断这一块是否加载完毕;selenium抓取

    在判断加载完毕这一步可以判断是否有'校企合作'出现

    (ps:其实合理的做法是找异步内容里面的某个最后加载出来元素,但是这个例子里面元素没有多余的特征供选择了)

     1 #coding:utf-8
     2 from selenium import webdriver
     3 from selenium.webdriver.common.by import By
     4 from selenium.webdriver.support.ui import WebDriverWait
     5 from selenium.webdriver.support import expected_conditions as EC
     6 
     7 driver = webdriver.PhantomJS(executable_path = 'C://Python27//Scripts//phantomjs-2.1.1-windows//bin//phantomjs')
     8 driver.get("http://www.wust.edu.cn/default.html")
     9 
    10 try:
    11     elment = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.PARTIAL_LINK_TEXT, '校企合作')))
    12 finally:
    13     ul = driver.find_element_by_id('infoCont_137575764138965434_148645613741998292')
    14     status = 'False:'
    15     if ul!=None:
    16         lis = ul.find_elements_by_tag_name('li')
    17         if lis==None:
    18             print('查询失败')
    19         for li in lis:
    20             text = li.find_element_by_tag_name('a').text
    21             if text!='':
    22                 status = 'Tuple:'
    23                 print(status+text)
    24     driver.close()

    这段程序的执行步骤为:

    判断是否有链接包含“校企合作”字符串;

    找id为infoCont_137575764138965434_148645613741998292的ul标签

    找ul标签里面的li标签

    找li标签里的a标签,并提取a标签的text

    值得注意的是:

    windows系统需要在首行设置编码;

    使用WebDriverWait判断网页加载状况,比time.sleep效果更好;

    异步加载可能返回比显示出来更多的li标签,审查元素可以看到,但是网页中没有让它显示出来,因此需要判断text!='';

    标签不能直接跨层级查找。

    运行结果:

  • 相关阅读:
    20161101学习笔记
    20161031学习笔记
    20161028学习笔记
    20161027学习笔记
    ReentrantLock Condition
    ReentrantLock 重入锁
    CountDownLatch用法与原理
    场景化解释 AQS原理
    Atomic
    多线程工具类
  • 原文地址:https://www.cnblogs.com/kuqs/p/6395284.html
Copyright © 2020-2023  润新知