• python爬取YouTube视频


    最近喜欢看看视频,于是到处逛啊逛的,终于还是来到了这个世界上最大的视频平台,不愧是它,质量杠杠的!

    心动不如行动 ,咱们直接用python开整,好看的视频都给它下载下来,完事了喊上表弟一起看~

    表弟:

    不多哔哔,咱们开始吧~

    环境模块

    开发环境

    这里咱们安装Python3 ,推荐3.6-3.8,编辑器还是pycharm,但是可以下载pycharm 2021 ,新版本自带汉化插件,直接安装就可以汉化了。

    对于不会英语的兄弟们来说简直是福音呐!

    模块
    这里本次用到的两个第三方模块需要pip安装一下

    requests   # 数据请求模块
    tqdm      #进度条配置
    # Python学习交流群:815624229

    没有软件,不会安装软件,不会安装模块、报错了等等,或者Python相关学习资料、代码、视频、解答等等,都在上面的裙了。

    浅浅的给大家展示一下爬完的一个视频

    表弟:呸,就一个?就这就这?能不能多放点!

    实现步骤

    pa虫的步骤讲了这么多遍,不知道各位记住了没有~

    首先咱咱们先打开目标网页然后去搜索自己喜欢的视频

    至于怎么进这个网站,且听我慢慢道来~

    声明一下,我只说怎么去下载,至于怎么进这个网站,这个不是我能教的,大家自行百度,我有点慌~


    emmm~

    我们还是不说这个了,说回搜索咱们喜欢的视频,比如

    咳咳,不要在意我搜的啥,这不是重点!

    然后我们以这个视频为例,咱们还是素一点。

     咱们点开视频,然后按 F12 打开开发者工具,然后刷新网页,去找到我们的数据包内容。

    刷新之后它会慢慢的加载数据包,咱们可以在里面找到很多内容,我就不详细写了,大家可以看我这个视频,详细的步骤都录下来了。

    为啥不写了呢,主要是写太多了,大家也不喜欢看,只喜欢看代码,害~

    代码展示

    导入模块

    这是所有需要用到的模块,前面没讲需要安装的都是内置模块,不需要安装。

    import requests   # 数据请求模块
    import re     # 正则表达式模块
    import json  # 数据类型处理模块
    from tqdm import tqdm   #进度条配置
    import os    # 处理文件和目录

    发送请求获取数据

    headers = {
        'cookie': 'VISITOR_INFO1_LIVE=9qZVrzB27uI; PREF=f4=4000000&tz=Asia.Shanghai; _ga=GA1.2.621834420.1648121145; _gcl_au=1.1.1853038046.1648121145; NID=511=Zc1APdmEbCD-iqVNVgI_vD_0S3LVI3XSfl-wUZEvvMU2MLePFKsQCaKUlUtchHSg-kWEVMGOhWUbxpQMwHeIuLjhxaslwniMh1OsjVfmOeTfhpwcRYpMgqpZtNQ7qQApY21xEObCvIez6DCMbjRhRQ5P7siOD3X87QX0CFyUxmY; OTZ=6430350_24_24__24_; GPS=1; YSC=0E115KqM_-I; GOOGLE_ABUSE_EXEMPTION=ID=d02004902c3d0f4d:TM=1648620854:C=r:IP=47.57.243.77-:S=YmZXPW7dxbu83bDuauEpXpE; CONSISTENCY=AGDxDeNysJ2boEmzRP4v6cwgg4NsdN4-FYQKHCGhA0AeW1QjFIU1Ejq1j8l6lwAc6c-pYTJiSaQItZ1M6QeI1pQ3wictnWXTOZ6_y8EKlt0Y_JdakwW6srR39-NLuPgSgXrXwtS0XTUGXpdnt4k3JjQ',
        'referer': 'https://www.youtube.com/results?search_query=jk%E7%BE%8E%E5%A5%B3',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36'
    }
    url = 'https://www.youtube.com/watch?v=ImoXcSpR_io'
    response = requests.get(url=url, headers=headers)
    print(response.text)

    匹配json数据

    json_str = re.findall('var ytInitialPlayerResponse = (.*?);var', response.text)[0]

    json字符串转变为字典

    json_data = json.loads(json_str)

    提取视频链接

    video_url = json_data['streamingData']['adaptiveFormats'][0]['url']

    提取音频链接

    audio_url = json_data['streamingData']['adaptiveFormats'][-2]['url']

    提取标题

    title = json_data['videoDetails']['title']    

    替换掉标题当中的空格

    title = title.replace(' ', '')

    替换掉标题当中的不合法字符

    title = re.sub(r'[\/:|?*"<>]', '', title)
    print(video_url)
    print(audio_url)
    print(title)

    向视频链接发送请求

    video = requests.get(video_url, stream=True)

    获取视频大小

    file_size = int(video.headers.get('Content-Length'))

    初始化进度条大小

    video_pbar = tqdm(total=file_size)

    开始保存视频

    with open(f'{title}.mp4', mode='wb') as f:
        # 把视频分成 1024 * 1024 * 2 为等分的大小 进行遍历
        for video_chunk in video.iter_content(1024*1024*2):
            # 写入数据
            f.write(video_chunk)
            # 更新进度条
            video_pbar.set_description(f'正在下载{title}视频中......')
            # 更新进度条长度
            video_pbar.update(1024*1024*2)
        # 下载完毕
        video_pbar.set_description('下载完成!')
        # 关闭进度条
        video_pbar.close()

    音频同理

    audio = requests.get(audio_url, stream=True)
    file_size = int(audio.headers.get('Content-Length'))
    audio_pbar = tqdm(total=file_size)
    with open(f'{title}.mp3', mode='wb') as f:
        for audio_chunk in audio.iter_content(1024*1024*2):
            f.write(audio_chunk)
            audio_pbar.set_description(f'正在下载{title}音频中......')
            audio_pbar.update(1024*1024*2)
        audio_pbar.set_description('下载完成!')
        audio_pbar.close()

    使用FFmpeg进行合并

    def merge(title):
        ffmpeg = r'D:\Download\ffmpeg\bin\ffmpeg.exe -i ' + title + '.mp4 -i ' + title + '.mp3 -acodec copy -vcodec copy ' + title + '-out.mp4'
        os.popen(ffmpeg)
    
    merge(title)

    兄弟们赶紧试试吧!
    记得点赞收藏评论,爱你哟!

    在这里插入图片描述

  • 相关阅读:
    传统 Ajax 已死,Fetch 永生
    redux-thunk, redux-logger 阮一峰 ( react中间件 )
    flow类型检查
    svn删除项目
    svn导入项目
    ubantu搭建svn
    惠普uefi装系统
    win7跳过登陆界面
    phpstorm配置Xdebug进行调试PHP教程
    jquery 给下拉框赋值
  • 原文地址:https://www.cnblogs.com/hahaa/p/16089280.html
Copyright © 2020-2023  润新知