• python爬虫爬取_高德地图_主要城市迁徙意愿排行榜_19年至今数据


    此文转载自:https://blog.csdn.net/qq_30803353/article/details/111573389

    高德主要城市迁徙意愿排行榜

    在这里插入图片描述

    我已拿到从16年至今此网站能提供的城市迁徙大数据,请自行确认自己想要的城市此网站是否提供,部分三四线城市不提供
    还有一点:网站不提供具体人数,如果需要具体人数的话我有联通的2020年1-6月份的扩样后的具体人数数据
    如需数据请加我qq,在我博客的其他文章里可以找到

    爬取简单思路:
    1、获取URL
    2、遍历从19年至今的日期
    3、访问URL,记得捕获异常,不然有可能会断掉
    4、抓完还需要处理数据成csv或者Excel

    import os
    from datetime import datetime, timedelta
    
    import requests
    
    from utils.read_write import writeOneJson
    from utils.time_change import getBetweenDay
    
    os.chdir(r'D:data高德迁徙迁徙意愿json\')
    
    
    headers = {"User-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 "
                             "(KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"}
    
    
    # 发送请求
    def requerts_url(url, riqi):
        try:
            response = requests.get(url, timeout=1000, headers=headers)
            json = eval(response.text)
            writeOneJson(json, riqi + ".json")
        except Exception as e:
            print(datetime.now())
            print(e)
            print(url)
            begin_date = datetime.strptime(riqi, "%Y-%m-%d")
            begin_date += timedelta(days=1)
            date_change(riqi)
    
    
    city_list = []
    
    
    # 先将数据下载为Json文件
    def city_range(riqi):
        file = "城市迁徙意愿_" + "_" + riqi + ".json"
        if not os.path.exists(file):
            firsturl = "https://trp.autonavi.com/cityTravel/line.do?adcode=100000&dt={}&willReal=WILL&size=200".format(riqi)
            requerts_url(firsturl, riqi)
    
    
    def date_change(date):
        date_list = getBetweenDay(date)
        for riqi in date_list:
            print(riqi)
            city_range(riqi)
    
    
    if __name__ == '__main__':
        date_change('2019-01-01')
    
    

    喜欢请一键三连

       

    更多内容详见微信公众号:Python测试和开发

    Python测试和开发

  • 相关阅读:
    windows配置solr5.5.2(不通过tomcat,使用内置jetty)
    6月8日云栖精选夜读:mac下eclipse配置tomcat无法启动问题
    零配置部署 React
    万亿级数据洪峰下的分布式消息引擎
    ENode 2.0
    WannaCry感染文件恢复方法_企业再也不用愁了!
    中国最强的人工智能学术会议来了
    1篇文章看懂峰值带宽、流量、转码、连麦、截图五大直播计费方式
    CSS基础(三)
    CSS基础(三)
  • 原文地址:https://www.cnblogs.com/phyger/p/14188649.html
Copyright © 2020-2023  润新知