• python爬取抖音APP视频教程


    本文讲述爬取抖音APP视频数据(本文未完,后面还有很多地方优化总结)

    公众号回复:抖音

    即可获取源码

    1、APP抓包教程,需要用到fiddler

    fiddler配置和使用查看>>王者荣耀盒子APP抓包配置方法

    2、寻找返回用户aweme_count和uid数据的接口

    进入我关注的抖音用户主页,找到用户的抖音号并记录下来,该抖音号为unique_id(unique_id区别于uid)

    用户主页有如下数据:如图所示

    注:该页面并没有返回我们需要的uid数据,需要通过如下方式搜索,在另外一个页面抓包才能获取

    抖音主页点击搜索图标

    输入用户主页获取到的unique_id值,并点击搜索

    进入该页面,切换到用户栏,该页面会返回我们需要的数据和接口

    fiddler抓包,该接口返回我们需要的两个参数,作品数aweme_count和用户uid

    上代码,input输入的为用户主页的unique_id,传入下面的方法中

    拿到unique_id,我们请求接口,提取我们需要的数据aweme_count和uid,并打印成功,这一步结束

    注:本网站为HTTPS加密,需要加verify=False参数,并要加headers

    3、接下来寻找视频播放页面接口

    手机切换到用户主页,会出现我们需要抓包的接口,因为用户主页有视频,自然接口在这里面

    抓包,成功抓到下面图中所示的share_url接口,该接口需要我们传2个参数,就是上一步我们获取到的aweme_count和uid

    注:share_url并不是最终我们真正下载视频的接口,需要对share_url返回的数据进一步提取,才能找到真正的视频接口

    上代码,但该接口测试一些发现有些不方便用,经查阅网上一些资料,发现需要用到抖音之前的老接口,如代码中所示

    这里获取得到的video_urls是一个假的视频接口,需要进一步提取真的视频接口

    将video_urls传进下载视频的方法中,中间我调用了get_download_url方法,进一步提取真正的视频接口

    提取真正视频接口,通过get请求假接口,在返回的一大坨响应中通过正则匹配提取

    这里简单截图了两个视频接口的区别,这幅图是假的视频接口,虽然也有视频,但并不是真正的

    下面这个才是我们真正的视频接口,整个页面只有一个视频,直接下载视频数据

    至此,抖音爬取告一段落,还遗留两个问题,尚未完全搞出来

    1、如何获取所有用户的抖音unique_id,而不必手动每次去查看后输入

    2、如何去水印

    这两个问题也已经尝试,没有那么容易,有兴趣的同学欢迎测试,有思路欢迎探讨

    欢迎添加好友学习探讨,备注(CSDN)


    ---------------------
    作者:python爬虫人工智能大数据
    来源:CSDN
    原文:https://blog.csdn.net/weixin_41666747/article/details/80501923
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    delphi利用文件内存共享的简单小说阅读器
    Delphi中共享内存学习
    JavaWeb初学者配置数据库连接报错(此处是MSSQL)
    Delphi的Json学习之一
    Delphi记录类型指针的使用
    汇编——段寄存器
    SQL 标量函数-----日期函数 day() 、month()、year() 转载
    项目一总结 滚动监听
    一阶段项目总结 导航栏 滚动监听固定
    简单的 js手写轮播图
  • 原文地址:https://www.cnblogs.com/zgq123456/p/10063774.html
Copyright © 2020-2023  润新知