• selenium实现淘宝的商品爬取


    一、问题

    本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段。本次实战的难点:

    1.如何利用selenium绕过淘宝的登录界面

    2.获取淘宝的页面内容实现翻页,并判断是否翻页成功。

    3.获取每一页的信息,实现数据的抓取工作。

     4.环境python3.6,对应的Chrome的webdriver驱动网址:http://chromedriver.storage.googleapis.com/index.html,将自己对应的webdriver放入scripts的环境内。

    二、解决

    1.在登录淘宝界面的时候,会弹出界面窗口,需要捕捉当前的页面,判断是否有变化。

    先用self.browser【驱动名称】.current_window_handle来捕获当前的界面信息。

    用self.browser【驱动名称】.switch_to_window(now_handle),来进行页面变化的判断

    self.browser.get(self.url)
    input_content = self.wait.until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
        )
    submit = self.wait.until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button"))
        )
    now_handle = self.browser.current_window_handle
    input_content.send_keys(self.key)
    submit.click()
    self.browser.switch_to_window(now_handle)

    2.在当前页码的判断,确定是否翻页成功。

    获取输入标签的值,和点击按钮,完成翻页动作,再用EC.text_to_be_present_in_element来检测是否完成了翻页的动作。

    print("正在翻第{0}页".format(number))
    input_content = self.wait.until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))
    )
    submit = self.wait.until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))
        )
    input_content.clear()
    input_content.send_keys(number)
    submit.click()
    self.wait.until(
        EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(number))
        )
    self.get_content()

    3.利用选择器获取整个页面的内容:

    利用xpath进行解析,也可以利用pyquery等一系列的解析方式进行解析。

    self.wait.until(
        EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)'))
        )
    html = self.browser.page_source
    content_text = etree.HTML(html)
    names = content_text.xpath('*//div[@class="pic"]/a/img/@alt')
    srcs = content_text.xpath('*//div[@class="pic"]/a/img/@data-src')
    totals = [(name, src) for (name, src) in zip(names, srcs)]

    三、结果呈现

    四、总结

    本项目利用了selenium来完成数据的自动爬取,需要注意获取的数据元素,以及数据信息。

    重点在于弹出页面的判断以及对翻页成功的判断,其余的内容就是一般的数据爬取的方式。淘宝实战需要对webdriver有一定的基础和了解。才可以正确获取到标签内容。

    webdriver的参考文档:

    https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

  • 相关阅读:
    堆排序
    阿里云
    ubuntu下编译内核模块
    字节对齐
    线段树
    c++虚函数表解析
    电面
    sql server数据库定时自动备份
    [hiho1584]Bounce
    五彩斑斓的世界
  • 原文地址:https://www.cnblogs.com/future-dream/p/10557804.html
Copyright © 2020-2023  润新知