ffmpeg 工具是一个高效快速的命令行工具,进行视音频不同格式之间的转换。
ffmpeg命令行
ffmpeg可以读取任意数量的输入“文件”(可以是常规文件,管道,网络流,抓取设备等)读取,由 -i 选项指定,并写入任意数量的输出“文件” (由纯输出文件名指定,在命令行中发现的不能被解释为选项的任何东西被认为是输出文件名。)
每个输入或输出文件原则上可以包含任意数量的不同类型的流(视频/音频/字幕/附件/数据)。 流的数量或类型可以由容器格式规定。 选择哪些输入并输出到哪个要么自动完成,要么使用-map选项。
将输出文件的视频比特率设置为54kbit/s
ffmpeg -i input.avi -b:v 64k -bufsize 64k output.avi
强制输出文件的帧速率24帧:
ffmpeg -i input.avi -r 24 output.avi
强制输入文件的帧速率(仅对raw格式有效)为1帧和输出文件的帧速率为24帧的:
ffmpeg -r 1 -i input.m2v -r 24 output.avi
ffmpeg的转码流程可以由下如表示:
编码分组后传递到解码器。 解码器可以通过滤波进一步处理的未压缩帧(原始视频/ PCM音频/ ...)。 在过滤之后,帧被传递到编码器,编码它们并输出编码分组。 最后,它们被传递到复用器,复用器将编码的数据包写入输出文件。)
ffmpeg为开发者准备的库
libavutil:这是一个实用程序库,以辅助多媒体编程。它包含安全可移植字符串函数,随机生成数,数据结构,附加数学函数,加密和多媒体相关功能。它不是libavcodec和libavformat所需的代码的库。
这个库的目标是:
模块化 它应该具有很少的相互依赖性和在./configure期间禁用某个单个部件得可能性。
小 源和对象都应该很小。
高效 它应该具有低CPU和内存使用。
有用 它应该添加人们很需要的功能。
libavcodec: libavcodec库提供通用编码/解码框架,并包含用于音频,视频,和字幕流的多个解码器和编码器,以及多个比特流滤波器。
共享架构提供从比特流i/o到dsp优化的各种服务,并使得它适用于实现健壮和快速的编解码器。
libavformat:库为音频、视频和字幕流的复用和解复用(多路复用和解复用)提供了一个通用框架。它包括多媒体容器格式的多个多路复用器和多路分解器。
它还支持几种输入和输出协议来访问媒体资源。
libavdevice:提供了一个通用框架,用于从许多常见的多媒体输入/输出设备抓取和渲染,并支持多个输入和输出设备,包括Video4Linux2,VfW。DShow和ALSA。
libavfilter:提供一个通用的音频/视频过滤框架,包含几个过滤器,源和接收器模块。
libswscale:该库执行高度优化的图像缩放和颜色空间和像素格式转化操作。
具体来说,此库执行以下转换:
重新调整:更改视频大小的过程。有几个重新调整选项和算法可以。这通常是有损耗的过程。
像素格式转换:是转换图像的图像格式和颜色空间的过程,例如从平面YUV420P到RGB24转换。它还可以处理packed转换,即从packed布局(属于在同一缓冲器中交织的不同平面的所有像素)转换成平面布局(属于存储在专用缓冲器或“平面”中的相同平面的所有样本)的转换。
如果源和目标颜色空间不同,这通常是有损过程。
libswresample:此库执行高度优化的音频重采样,重新矩阵化和样本格式转换操作。
具体来说,此库执行以下转换:
重新采样:是改变音频速率的过程,例如从 44100Hz 的高采样率到 8000Hz 。从高到低采样率的音频转换是有损耗的过程。有几个重采样选项和算法可用。
格式转换:是将采样类型(例如从16位有符号采样转换为无符号8位或浮点采样)的过程。当从 packed 布局(所有属于在相同缓冲器中交错的不同通道的样本)到平面布局(属于存储在专用缓冲器或“平面”中的相同通道的所有样本)时,它还处理 packed 转换。
重新矩阵化:是改变通道布局的过程,例如从立体声到单声道。当输入通道不能映射到输出流时,该过程是有损的,因为它涉及不同的增益因子和混合。
通过专用选项启用各种其他音频转换(例如拉伸和填充)。
制作动画屏幕捕捉
电影文件有几个部分组成,文件本身称为容器,容器的类型决定文件中信息的位置。 本节实验容器的示例是 avi 和quicktime。 接下来,我们需要处理很多流:例如通常有一个音频流和一个视频流。流中的数据元素被称为帧。 每个流由不同种类的编解码器编码。 编解码器定义实际数据如何被 COTED和 DECDODE --- 因此名称 CODEC。 编解码器的示例是 DivX 和 MP3 。 然后从流中读取分组。 数据包是可以包含数据位的数据片段,这些数据被解码成我们最终可以为我们的应用程序处理的原始帧。 为了我们的目的,每个分组包含完整的帧,或者在音频的情况下多个帧。
处理视频和音频流是非常容易的,属于基本层次:
从文件中找到视频流
从视频流中读取数据包
如果不是一帧完整的数据就继续执行上一步
对帧数据做一些处理
然后循环执行以上操作,直到结束