• Python:双十一正值火热,让我们爬一下某宝,参与一波剁手~


    兄弟们,双十一剁手了吗?购物虽快乐,但是别过度了,毕竟很多降价不是真的降价,眼睛擦亮了~
    在这里插入图片描述
    今天来试试爬一下某宝,这玩意学会了做外包的话,还是值几个钱的。
    在这里插入图片描述
    环境/模块介绍

    python 3.8 使用的环境
    pycharm    使用的编辑器   
    selenium   浏览器驱动的第三方模块
    csv        数据保存的模块
    time       时间模块, 可以用于程序的延迟
    random     随机数模块
    #兄弟们学习python,有时候不知道怎么学,从哪里开始学。掌握了基本的一些语法或者做了两个案例后,不知道下一步怎么走,不知道如何去学习更加高深的知识。
    #那么对于这些大兄弟们,我准备了大量的免费视频教程,PDF电子书籍,以及视频源的源代码!
    #还会有大佬解答!
    #都在这个群里了 872937351
    #欢迎加入,一起讨论 一起学习!

    下载操作浏览器驱动的第三方模块

    selenium  pip install selenium

    解释我基本都写在注释了,我就偷个懒不在写了。

    from selenium import webdriver
    import time  # 时间模块, 可以用于程序的延迟
    import random  # 随机数模块
    from constants import TAO_USERNAME1, TAO_PASSWORD1
    import csv  # 数据保存的模块
    def search_product(keyword):
        """搜索商品数据, 登录用户"""
        driver.find_element_by_xpath('//*[@id="q"]').send_keys(keyword)
        time.sleep(random.randint(1, 3))  # 尽量避免人机检测  随机延迟
    
        driver.f
    def parse_data():
        """解析商品数据"""
        divs = driver.find_elements_by_xpath('//div[@class="grid g-clearfx"]/div/div')  #  所有的div标签
    
        for div in divs:
            try:
                info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
                price = div.find_element_by_xpath('.//strong').text + ''
                deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text
                name = div.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text
                location = div.find_element_by_xpath('.//div[@class="location"]').te'.//div[@class="pic"]/a').get_attribute('href')
    
                print(info, price, deal, name, location, detail_url)
    
                # 保存
                with open('某宝.csv', mode='a', encoding='utf-8', newline='') as f:
                    csv_write = csv.writer(f)
                    csv_write.writerow([info, price, deal, name, location, detail_url])
            except:
                continue
    word = input('请输入你要搜索商品的关键字:')
    # 创建一个浏览器
    driver = webdriver.Chrome()
    
    # selenium操作的浏览器被识别了, 无法登录
    # 修改浏览器的部分属性, 绕过检测
    driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => false})"""})
    
    
    # 执行自动化浏览器的操作
    driver.get('https://www.taobao.com/')
    driver.implicitly_wait(10)  # 设置浏览器的等待,加载数据
    driver.maximize_window()  # 最大化浏览器
    
    
    # 调用商品搜索的函数
    search_product(word)
    
    for page in range(100): # 012
        print(f'\n==================正在抓取第{page + 1}页数据====================')
        url = f'https://s.taobao.com/search?q=%E5%B7%B4%E9%BB%8E%E4%B8%96%E5%AE%B6&s={page * 44}'
        # 解析商品数据
        parse_data()
        time.sleep(random.randint(1, 3))  # 尽量避免人机检测  随机延迟
  • 相关阅读:
    Vue源码探究-数据绑定的实现
    vue 数组遍历方法forEach和map的原理解析和实际应用
    vue 微信内H5调起支付
    uni-app官方教程学习手记
    vue-cli3 搭建的前端项目基础模板
    vue.js响应式原理解析与实现
    vue-waterfall2 基于Vue.js 瀑布流组件
    解决lucene更新删除无效的问题
    spring项目启动报错
    js监听页面copy事件添加版权信息
  • 原文地址:https://www.cnblogs.com/hahaa/p/15514933.html
Copyright © 2020-2023  润新知