• Python使用selenium进行爬虫(一)


        JAVA爬虫框架很多,类似JSOUP,WEBLOGIC之类的爬虫框架都十分好用,个人认为爬虫的大致思路就是:

    1、挑选需求爬的URL地址,将其放入需求网络爬虫的队列,也可以把爬到的符合一定需求的地址放入这个队列中

    2、获取一个url进行DNS解析,获取其主机IP

    3、针对这个url地址将其页面加载下来(也就是这个页面的html或者jsp)加载下来,不同的框架有不同的页面处理方法,和抽取有用信息的方法,类似根据id选择抽取,根据标签抽取,根据class抽取,根据css抽取等。

    4、最后Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等

        在这里我们介绍一种十分方便的爬虫工具:selenium,selenium爬虫个人感觉适合对那种需求登录的页面进行爬取,因为它本身可以加载浏览器驱动,模拟登录这个操作,然后把需求的静态页面加载进来。

    from selenium import webdriver
    import time
    
    # browser = webdriver.Chrome()
    # browser = webdriver.Firefox()
    
    # help(webdriver)
    
    #加载谷歌浏览器驱动,这里我使用的谷歌,你也可以下载firefox或者ie的驱动
    #使用什么驱动则模拟该操作的就是这个浏览器,需要注意的是,chromedriver.exe对不同浏览器版本也是有自己版本的
    browser = webdriver.Chrome("D:driverchromedriver.exe")
    
    #这里通过get请求需要模拟登录的页面
    browser.get("https://crm.xiaoshouyi.com/global/login.action")
    #
    # print(browser.page_source)
    
    # browser.switch_to_frame("page_source")
    
    #这里通过name选择器获取登录名和密码并把需要set值给放进去
    browser.find_element_by_name("loginName").send_keys("你的登录名")
    browser.find_element_by_name("password").send_keys("你的登录密码")
    #这一步模拟点击登录
    browser.find_element_by_class_name("pg-btn-submit").click()
    
    
    # browser.implicitly_wait(10)
    time.sleep(5)
    
    
    #这一步模拟点击某个a标签连接
    hrefs=browser.find_element_by_partial_link_text(u"客户")
    hrefs.click()
    
    time.sleep(5)
    
    #我们可以通过browser.page_source把当前页面的静态资源打印出来看看,然后根据自己需求进行提取有用的资源
    print(browser.page_source)

       现在我们可以看到,我们已经把页面的静态资源加载到了browser里面,我们可以开始根据自己的需求从browser里面拿自己需要的资源了,我这里先简单介绍一下selenium的使用,有关其具体选择器和选择方法,如下所示:

    browser.find_element_by_id("id的name")
    browser.find_element("")
    browser.find_element_by_tag_name("标签name")
    browser.find_element_by_class_name("classname")
    browser.find_element_by_css_selector("css选择器,cssname")
    browser.find_element_by_partial_link_text("带有链接的文本,获取其跳转地址,后面跟click事件可以模拟跳转")
    
    
    browser.find_element_by_xpath("里面可以跟正则表达式,XPath一般在实际自动化测试项目中用到比较多,其定位元素十分方便")

    此处例举xpath用法:

    假如一个html是这个样子的:

    <html>
     <body>
      <form id="myform">
       <input name="name" type="text" />
       <input name="pwd" type="password" />
       <input name="continue" type="submit" value="Login" />
      </form>
    </body>
    <html>

    我们需要用xpath定位他的pwd:

    pwd = browser.find_element_by_xpath("//form[input/@name='pwd']")---获取form下input标签中name为pwd的资源
    pwd = browser.find_element_by_xpath("//form[@id='loginForm']/input[2]")---获取第二个input标签的资源
    pwd = browser.find_element_by_xpath("//input[@name='pwd']")---直接获取input为pwd的资源
    以上为selenium的基础用法,欢迎提问评论
  • 相关阅读:
    hadoop面试时的一些问题解答
    FTRL(Follow The Regularized Leader)学习总结
    循环神经(LSTM)网络学习总结
    深度学习中常用的激活函数
    TF.learn学习
    TensorFlow实现分布式计算
    TensorFlow TensorBoard使用
    深度学习总结
    Spark SQL相关总结
    推荐系统/广告系统索引目录
  • 原文地址:https://www.cnblogs.com/asd529735325/p/10216037.html
Copyright © 2020-2023  润新知