• python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件


    今天给大家分享一个小网站的数据采集,并写到excel里面!

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    分析网站

    目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧!

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态的。

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    那就简单了,不需要去分析ajax加载数据或者找json包了,直接获取网页源代码==>>匹配相关内容==>>保存数据即可!

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    工具和库

    Windows+python3.6

    import random

    import time

    import requests

    from lxml import etree

    import xlwt

    用这几个库就可以搞定了!注意xlwt和xlrd这2个库都是操作excel的,一个是保存数据,一个是读取数据,不要搞混了。

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    开始写代码

    首先写一个函数,将所有的爬虫工作写到函数里,如下图

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件
     这个网站需要写上headers,不写是抓不到数据的!新建一个列表,将爬到的相关数据写入列表,它的形式大概是这样的:【【产品信息A1,2,3……】,【产品信息B1,2,3……】……】,这么写列表是因为我们最后要将他们写如excel表格,那么列表中的每一个元素(还是列表形式)都是一行数据,方便写入!

    注意第33行,列表构成的时候,用+连接会将所有列表中的元素放入一个列表,比如:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函数则会将后面的内容作为一个元素加入列表中,比如:[1,2,3].append([4,5])=[1,2,3,[4,5]]

    下来就是写入excel了,首先是新建excel表格,并写入第一行数据

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    后面的数据,依次按格式写入并最后用wb.save(路径)的方式保存即可!完整代码及效果如下

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 
    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    由于网站更新的很快(官方说是10分钟。。。),所以也没有抓取那么多,所有的页面有大约600多页,一页100条信息,也就是说一共有6万多条商品信息,如果不用多线程的话会很慢!

    python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件 

    代码在上传的过程中会有压缩,如果实在看不清楚的话,大家可以私信我获取源码!

  • 相关阅读:
    B树和B+树的插入、删除图文详解
    使用limit分页查询时,做delete操作,会导致丢失数据
    【转载】研发应该懂的binlog知识(下)
    【转载】研发应该懂的binlog知识(上)
    OOM排除与JVM调优
    Intellij IDEA集成JProfiler性能分析神器
    Java程序内存分析:使用mat工具分析内存占用
    mysql 查询结果为空时值时执行后面的sql语句
    mysql 无数据插入,有数据更新
    C# 超大数据量导入 SqlBulkCopy
  • 原文地址:https://www.cnblogs.com/qun542110741/p/9360295.html
Copyright © 2020-2023  润新知