• selenium自动化模块的应用


    一、selenium概念

      1、用来完成浏览器自动化的相关操作

      2、使用程序编写一系列的键盘、鼠标的相关操作(让浏览器来完成), 当我们执行代码时,就会触发一系列的事件

    二、selenium在爬虫中的作用

      1、可以获取动态加载的数据

    三、selenium安装

      1、pip install selenium

      2、下载浏览器驱动程序: http://chromedriver.storage.googleapis.com/index.html (找到最接近的版本)

    四、selenium使用

      1、导包: from selenium import webdriver

      2、实例化某一款浏览器的驱动,获取一个对象

      3、使用对象中的相关方法制定一系列的事件(键盘、鼠标的相关操作)

    五、简单案例,打开百度

    from selenium import webdriver
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.get("https://www.baidu.com")
    
    bro.close()

    六、自动打开百度,搜素刘德华

    # 百度搜索刘德华案例
    import time
    from selenium import webdriver
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.get("https://www.baidu.com")
    
    # 1. 定位到输入框
    kw = bro.find_element_by_id("kw")
    
    # 2. 键入刘德华关键字
    kw.send_keys("刘德华")
    time.sleep(5)
    
    # 3. 定位到"百度一下"按钮
    input_key = bro.find_element_by_id("su")
    
    # 4. 触发点击事件
    input_key.click()
    time.sleep(5)
    
    bro.close()

    七、爬取雪球网

    from selenium import webdriver
    
    bro = webdriver.Chrome('./chromedriver.exe')
    bro.get('https://xueqiu.com')
    
    
    # 获取动态加载的数据
    print(bro.page_source)
    
    bro.quit()

    八、爬取雪球网的更多数据

    import time
    from selenium import webdriver
    
    bro = webdriver.Chrome('./chromedriver.exe')
    bro.get('https://xueqiu.com')
    
    js = "window.scrollTo(0, document.body.scrollHeight)" # 表示滚轮往下拖动一屏的高度
    
    bro.execute_script(js)
    time.sleep(2)
    
    bro.execute_script(js)
    time.sleep(2)
    
    bro.execute_script(js)
    time.sleep(2)
    
    bro.execute_script(js)
    time.sleep(2)
    
    # 获取动态加载的数据
    print(bro.page_source)
    
    bro.quit()

    九、谷歌无头浏览器

    import time
    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    
    # 创建一个参数对象,用来控制chrome以无界面模式打开
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe', chrome_options=chrome_options)
    bro.get("https://www.baidu.com")
    
    # 截图
    bro.save_screenshot('3.jpg')
    
    # 1. 定位到输入框
    kw = bro.find_element_by_id("kw")
    
    # 2. 键入刘德华关键字
    kw.send_keys("刘德华")
    time.sleep(2)
    
    # 3. 定位到"百度一下"按钮
    input_key = bro.find_element_by_id("su")
    
    # 4. 触发点击事件
    input_key.click()
    # 截图
    bro.save_screenshot('4.jpg')
    time.sleep(2)
    
    bro.close()

    十、前进和后退

    import time
    from selenium import webdriver
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    
    # 注意: bro对象只有将页面完全加载完成之后,才会进行下一步的事件触发
    bro.get("https://www.baidu.com")
    bro.get("https://www.taobao.com")
    bro.get("https://www.jd.com")
    time.sleep(2)
    
    # 后退
    bro.back()
    time.sleep(2)
    
    # 前进
    bro.forward()
    time.sleep(2)
    
    bro.close()

    十一、动作链。拖动iframe标签

    import time
    from selenium import webdriver
    from selenium.webdriver import ActionChains
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
    
    # 定位到页面中的iframe标签内部,这样才可以定位到它内部的标签
    bro.switch_to.frame("iframeResult")
    
    # 实例化一个动作链对象,将浏览器对象加载到这个动作链对象中
    actions = ActionChains(bro)
    # 1. 定位“请拖拽我”标签
    source_tag = bro.find_element_by_id("draggable")
    # 2. 点击“请拖拽我”, 并拖动
    actions.click_and_hold(source_tag)
    
    for i in range(1, 6):
        actions.move_by_offset(50,0)
        time.sleep(1)
    
    actions.perform()  # 执行所有动作链
    
    time.sleep(2)
    
    bro.close()

    十二、动作链,拖动iframe标签到指定的地方

    import time
    from selenium import webdriver
    from selenium.webdriver import ActionChains
    
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
    
    # 定位到页面中的iframe标签内部,这样才可以定位到它内部的标签
    bro.switch_to.frame("iframeResult")
    
    # 实例化一个动作链对象,将浏览器对象加载到这个动作链对象中
    actions = ActionChains(bro)
    # 1. 定位“请拖拽我”标签
    source_tag = bro.find_element_by_id("draggable")
    target_tag = bro.find_element_by_id('droppable')
    
    # 点击并拖动,并丢弃
    actions.click_and_hold(source_tag)
    for i in range(1, 6):
        actions.move_by_offset(30,0)
        time.sleep(1)
    actions.drag_and_drop(source_tag, target_tag)
    
    actions.perform()  # 执行所有动作链
    
    bro.close()

    十三、获取cookie

    from selenium import webdriver
    from selenium.webdriver import Chrome
    from selenium.webdriver import ChromeOptions
    
    option = ChromeOptions()
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    
    browser = webdriver.Chrome('./chromedriver.exe', options=option)
    browser.get('https://www.baidu.com')
    print(browser.get_cookies())
    
    # browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
    # print(browser.get_cookies())
    
    # browser.delete_all_cookies()
    # print(browser.get_cookies())
  • 相关阅读:
    mybatis:SQL拦截器
    eclipse:插件安装总结
    eclpse:安装explorer或eExplorer插件
    Spring Tools4
    nginx+tomcat:动静分离+https
    Tomcat:3DES解密时中文乱码
    wireshark如何抓取localhost包
    nginx: 应用访问默认采用https
    windows :config windows update … 一直处于假死状态
    EHCache:Eelment刷新后,timeToLiveSeconds失效了?
  • 原文地址:https://www.cnblogs.com/youhongliang/p/12176181.html
Copyright © 2020-2023  润新知