视频技术发展历史:MPEG4技术简介

视频技术发展历史:MPEG4技术简介

http://blog.sina.com.cn/s/blog_48c5b1f10100warw.html

MPEG4于1998年11月公布，原预计1999年1月投入使用的国际标准MPEG4不仅是针对一定比特率下的视频、音频编码，更加注重多媒体系统的交互性和灵活性。MPEG专家组的专家们正在为MPEG-4的制定努力工作。MPEG-4标准主要应用于视像电话(Video Phone)，视像电子邮件(Video Email)和电子新闻(Electronic News)等，其传输速率要求较低，在4800-64000bits/sec之间，分辨率为176X144。MPEG-4利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图像质量。

MPEG-4简介　　
与MPEG-1和MPEG-2相比，MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是观看，允许你加入其中，即有交互性)的动态图像标准，它的另一个特点是其综合性。从根源上说，MPEG-4试图将自然物体与人造物体相溶合(视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。
　　MPEG全称是Moving Pictures Experts Group，它是“动态图象专家组”的英文缩写，该专家组成立于1988年，致力于运动图像及其伴音的压缩编码标准化工作，原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本，以适用于不同带宽和数字影像质量的要求。
　　目前，MPEG1技术被广泛的应用于VCD，而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准，但由于MPEG2的出色性能表现， MPEG3只能是死于襁褓了。而我们今天要谈论的主角——MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比，MPEG4更加注重多媒体系统的交互性和灵活性。下面就让我们一起进入多彩的MPEG4世界。

MPEG-4标准
　　MPEG-4标准目前分为27个部分，统称为ISO/IEC14496国际标准。[1]各部分的内容描述如下：
　　第一部分（ISO/IEC 14496-1），系统：描述视频和音频数据流的控制、同步以及混合方式（Multiplexing, MUX）。
　　第二部分（ISO/IEC 14496-2），视频：定义了对各类视觉信息（包括自然视频、静止纹理、计算机合成图形等等）的编解码器。该部分采用了国际电联ITU的技术建议H.263，故业界亦称该部分为H.263。
　　第三部分（ISO/IEC 14496-3），音频：定义了对各种音频信号进行编码的编解码器的集合，包括AAC（Advanced Audio Coding）。
　　第四部分（ISO/IEC 14496-4），一致性：定义了对本标准其他的部分进行一致性测试方法。
　　第五部分（ISO/IEC 14496-5），参考软件：提供了用于功能演示的软件。
　　第六部分（ISO/IEC 14496-6），多媒体传输集成框架。
　　第七部分（ISO/IEC 14496-7），优化的参考软件：在第五部分的基础上提供了优化示例。
　　第八部分（ISO/IEC 14496-8），IP网络传输：定义了在IP网络上传输MPEG-4内容的格式。
　　第九部分（ISO/IEC 14496-9），参考硬件：提供了用于实现本标准功能的硬件设计方案。
　　第十部分（ISO/IEC 14496-10），高级视频编码AVC（Advanced Video Coding）：定义了更高级的视频编解码器。该部分采用了国际电联ITU的技术建议H.264，故业界亦称该部分为H.264。
　　第十一部分（ISO/IEC 14496-11），场景描述与应用引擎。
　　第十二部分（ISO/IEC 14496-12），基本媒体文件格式。
　　第十三部分（ISO/IEC 14496-13），知识产权管理和保护的拓展。
　　第十四部分（ISO/IEC 14496-14），视频文件格式：在第十二部分的基础上定义了视频内容的存储格式。
　　第十五部分（ISO/IEC 14496-15），AVC文件格式：在第十二部分的基础上定义了AVC视频内容的存储格式。
　　第十六部分（ISO/IEC 14496-16），动画框架扩展。
　　第十七部分（ISO/IEC 14496-17），同步文本字幕格式。
　　第十八部分（ISO/IEC 14496-18），字体压缩和流媒体传输。
　　第十九部分（ISO/IEC 14496-19），合成信息流。
　　第二十部分（ISO/IEC 14496-20），简单场景描述。
　　第二十一部分（ISO/IEC 14496-21），用于渲染的MPEG-J拓展。
　　第二十二部分（ISO/IEC 14496-22），开放字体格式。
　　第二十三部分（ISO/IEC 14496-23），符号化的音乐描述。
　　第二十四部分（ISO/IEC 14496-24），音频与系统的交互定义。
　　第二十五部分（ISO/IEC 14496-25），3D图形压缩模型。
　　第二十六部分（ISO/IEC 14496-26），音频一致性检查。
　　第二十七部分（ISO/IEC 14496-27），3D图形一致性检查。

MPEG-4目标
　　(一) 低比特率下的多媒体通信；
　　(二) 是多工业的多媒体通信的综合。
　　据此目标，MPEG4 引入AV 对象（Audio/Visual Objects），使得更多的交互操作成为可能。
　　MPEG-4是为在国际互联网络上或移动通信设备（例如移动电话）上实时传输音/视频讯号而制定的最新MPEG标准，MPEG4采用Object Based方式解压缩，压缩比指标远远优于以上几种，压缩倍数为450倍(静态图像可达800倍)，分辨率输入可从320 ×240到1280 ×1024，这是同质量的MPEG1和MJEPG的十倍多。
　　MPEG4使用「图层」(layer)方式，能够智能化选择影像的不同之处，是可根据图像内容，将其中的对象（人物、物体、背景）分离出来分别进行压缩，使图文件容量大幅缩减，而加速音/视频的传输，这不仅仅大大提高了压缩比，也使图像探测的功能和准确性更充分的体现出来。
　　在网络传输中可以设定MPEG4的码流速率，清晰度也可在一定的范围内作相应的变化，这样便于用户根据自己对录像时间、传输路数和清晰度的不同要求进行不同的设置，大大提高了系统使用时的适应性和灵活性。也可采用动态帧测技术，动态时快录，静态时慢录，从而减少平均数据量，节省存储空间。而且当在传输有误码或丢包现象时，MPEG4受到的影响很小，并且能迅速恢复。
　　MPEG4的应用前景将是非常广阔的。它的出现将对以下各方面产生较大的推动作用：数字电视、动态图像、万维网（WWW）、实时多媒体监控、低比特率下的移动多媒体通信、于内容存储和检索多媒系统、Internet/Intranet上的视频流与可视游戏、基于面部表情模拟的虚拟会议、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用、演播电视等。
　　当然，除了MPEG 4外，还有更先进的下一个版本MPEG 7 ，准确来说， MPEG-7并不是一种压缩编码方法，而是一个多媒体内容描述接口。继MPEG4之后，要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。MPEG 7就是针对这个矛盾的解决方案。MPEG7力求能够快速且有效地搜索出用户所需的不同类型的多媒体材料。预计这个方案于2001年初最终完成并公布。按照以往 MPEG-4的经验，MPEG-7起码要再过两年才能进入实际应用阶段。
编辑本段多媒体视频编码
　　运动图像专家组MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底MPEG-4第二版亦告底定，且于2000年年初正式成为国际标准。
　　
MPEG4多媒体编码卫星电视数字机顶盒

　　MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法，它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料撷取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG -4标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。
　　MPEG-4的编码理念是：MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法，又有利于不同数据类型间的融合，并且这样也可以方便的实现对于各种对象的操作及编辑。例如，我们可以将一个卡通人物放在真实的场景中，或者将真人置于一个虚拟的演播室里，还可以在互联网上方便的实现交互，根据自己的需要有选择的组合各种视频音频以及图形文本对象。
　　MPEG-4系统的一般框架是：对自然或合成的视听内容的表示；对视听内容数据流的管理，如多点、同步、缓冲管理等；对灵活性的支持和对系统不同部分的配置。

优点
(1) 基于内容的交互性
　　MPEG-4提供了基于内容的多媒体数据访问工具，如索引、超级链接、上传、下载、删除等。利用这些工具，用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容，并提供了内容的操作和位流编辑功能，可应用于交互式家庭购物，淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
(2) 高效的压缩性
　　MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比，在相同的比特率下，它基于更高的视觉听觉质量，这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
(3) 通用的访问性
　　MPEG-4提供了易出错环境的鲁棒性，来保证其在许多无线和有线网络以及存储介质中的应用，此外，MPEG-4还支持基于内容的的可分级性，即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求，支持具有不同带宽，不同存储容量的传输信道和接收端。
　　这些特点无疑会加速多媒体应用的发展，从中受益的应用领域有：因特网多媒体应用；广播电视；交互式视频游戏；实时可视通信；交互式存储媒体应用；演播室技术及电视后期制作；采用面部动画技术的虚拟会议；多媒体邮件；移动通信条件下的多媒体应用；远程视频监控；通过ATM网络等进行的远程数据库业务等。
(4)MPEG4的技术特点
　　MPEG1、MPEG2技术当初制定时，它们定位的标准均为高层媒体表示与结构，但随着计算机软件及网络技术的快速发展，MPEG1.MPEG2技术的弊端就显示出来了：交互性及灵活性较低，压缩的多媒体文件体积过于庞大，难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码，其具体的编码对象就是图像中的音频和视频，术语称为“AV对象”，而连续的AV对象组合在一起又可以形成AV场景。因此，MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的，高效率地编码、组织、存储、传输AV对象是MPEG4标准的基本内容。
　　在视频编码方面，MPEG4支持对自然和合成的视觉对象的编码。（合成的视觉对象包括2D、3D动画和人面部表情动画等）。在音频编码上，MPEG4可以在一组编码工具支持下，对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。
　　由于MPEG4只处理图像帧与帧之间有差异的元素，而舍弃相同的元素，因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰，一般来说，一小时的影像可以被压缩为350M左右的数据，而一部高清晰度的DVD电影,可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说，这就意味着,您不需要购置 DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片，对机器硬件配置的要求非常之低，300MHZ 以上CPU，64M的内存和一个 8M显存的显卡就可以流畅的播放。在播放软件方面，它要求也非常宽松，你只需要安装一个 500K左右的 MPEG4 编码驱动后，用 WINDOWS自带的媒体播放器就可以流畅的播放了（下面我们会具体讲到）。
编辑本段视频编码研究与MPEG标准演进
　　人类获取的信息中70%来自于视觉，视频信息在多媒体信息中占有重要地位；同时视频数据冗余度最大，经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术，对视频编码的研究已成为信息技术领域的热门话题。
　　视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准，可将数据压缩划分为无失真压缩（即可逆压缩）和有失真压缩（即不可逆压缩）两类。
　　传统压缩编码建立在香农信息论基础之上的，以经典集合论为工具，用概率统计模型来描述信源，其压缩思想基于数据统计，因此只能去除数据冗余，属于低层压缩编码的范畴。
　　伴随着视频编码相关学科及新兴学科的迅速发展，新一代数据压缩技术不断诞生并日益成熟，其编码思想由基于像素和像素块转变为基于内容（content-based）。它突破了仙农信息论框架的束缚，充分考虑了人眼视觉特性及信源特性，通过去除内容冗余来实现数据压缩，可分为基于对象（object-based）和基于语义（semantics-based）两种，前者属于中层压缩编码，后者属于高层压缩编码。
　　与此同时，视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++，ISO/IEC公布的MPEG系列标准有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7，并且计划公布MPEG-21。
　　MPEG即Moving Picture Expert Group（运动图像专家组），它是专门从事制定多媒体视音频压缩编码标准的国际组织。MPEG系列标准已成为国际上影响最大的多媒体技术标准，其中MPEG-1和MPEG-2是采用以仙农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术；MPEG-4（ISO/IEC 14496）则是基于第二代压缩编码技术制定的国际标准，它以视听媒体对象为基本单元，采用基于内容的压缩编码，以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视（DTV&&HDTV）、多媒体通信等信息产业的发展产生了巨大而深远的影响。
编辑本段MPEG-4视频编码核心思想及关键技术
　　MPEG-4视频编码核心思想及技术研究"
摘要
　　MPEG-4是新一代基于内容的多媒体数据压缩编码国际标准，它与传统视频编码标准的最大不同在于第一次提出了基于对象的视频编码新概念。基于内容的交互性是MPEG-4标准的核心思想，这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。
　　刘达　毛加轩文章来源：中国数据通信
关键词
　　MPEG-4 数据压缩视频编码视听对象基于内容编码视频对象提取运动估计与补偿
1 引言
　　当今时代，信息技术和计算机互联网飞速发展，在此背景下，多媒体信息已成为人类获取信息的最主要载体，同时也成为电子信息领域技术开发和研究的热点。多媒体信息经数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点，但同时也伴随海量数据的产生，这对信息存储设备及通信网络均提出了很高要求，从而成为阻碍人们有效获取和使用信息的重大瓶颈。
　　因此研究高效的多媒体数据压缩编码方法，以压缩形式存储和传输数字化的多媒体信息具有重要意义。作为多媒体技术的核心及关键，多媒体数据压缩编码近年来在技术及应用方面都取得了长足进展，它的进步和完善正深刻影响着现代社会的方方面面。
2 视频编码研究与MPEG标准演进
　　人类获取的信息中70%来自于视觉，视频信息在多媒体信息中占有重要地位；同时视频数据冗余度最大，经压缩处理后的视频质量高低是决定多媒体服务质量的关键因素。因此数字视频技术是多媒体应用的核心技术，对视频编码的研究已成为信息技术领域的热门话题。
　　视频编码的研究课题主要有数据压缩比、压缩/解压速度及快速实现算法三方面内容。以压缩/解压后数据与压缩前原始数据是否完全一致作为衡量标准，可将数据压缩划分为无失真压缩（即可逆压缩）和有失真压缩（即不可逆压缩）两类。
　　传统压缩编码建立在仙农信息论基础之上的，以经典集合论为工具，用概率统计模型来描述信源，其压缩思想基于数据统计，因此只能去除数据冗余，属于低层压缩编码的范畴。
　　伴随着视频编码相关学科及新兴学科的迅速发展，新一代数据压缩技术不断诞生并日益成熟，其编码思想由基于像素和像素块转变为基于内容（content-based）。它突破了仙农信息论框架的束缚，充分考虑了人眼视觉特性及信源特性，通过去除内容冗余来实现数据压缩，可分为基于对象（object-based）和基于语义（semantics-based）两种，前者属于中层压缩编码，后者属于高层压缩编码。
　　与此同时，视频编码相关标准的制定也日臻完善。视频编码标准主要由ITU-T和ISO/IEC开发。ITU-T发布的视频标准有H.261、 H.262、 H.263、 H.263+、H.263++，ISO/IEC公布的MPEG系列标准有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7，并且计划公布MPEG-21。
　　MPEG即Moving Picture Expert Group（运动图像专家组），它是专门从事制定多媒体视音频压缩编码标准的国际组织。MPEG系列标准已成为国际上影响最大的多媒体技术标准，其中MPEG-1和MPEG-2是采用以香农信息论为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术；MPEG-4（ISO/IEC 14496）则是基于第二代压缩编码技术制定的国际标准，它以视听媒体对象为基本单元，采用基于内容的压缩编码，以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视（DTV&&HDTV）、多媒体通信等信息产业的发展产生了巨大而深远的影响。
3 MPEG-4视频编码核心思想及关键技术
　　3．1 核心思想
　　在MPEG-4制定之前，MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术，着眼于图像信号的统计特性来设计编码器，属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧，每一帧图像又分成宏块以进行运动补偿和编码，这种编码方案存在以下缺陷：
　　· 将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应；
　　· 不能对图像内容进行访问、编辑和回放等操作；
　　· 未充分利用人类视觉系统（HVS，Human Visual System）的特性。
　　MPEG-4则代表了基于模型/对象的第二代压缩编码技术，它充分利用了人眼视觉特性，抓住了图像信息传输的本质，从轮廓、纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
　　AV对象（AVO，Audio Visual Object）是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体，对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念，而是一个个视听场景（AV场景），这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元，其基本单位是原始AV对象，它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性，它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出，使多媒体通信具有高度交互及高效编码的能力，AV对象编码就是MPEG-4的核心编码技术。
　　MPEG-4不仅可提供高压缩率，同时也可实现更好的多媒体内容互动性及全方位的存取性，它采用开放的编码系统，可随时加入新的编码算法模块，同时也可根据不同应用需求现场配置解码器，以支持多种多媒体应用。
　　MPEG-4 采用了新一代视频编码技术，它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象，从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变，因而引领着新一代智能图像编码的发展潮流。
　　3．2 关键技术
　　MPEG-4除采用第一代视频编码的核心技术，如变换编码、运动估计与运动补偿、量化、熵编码外，还提出了一些新的有创见性的关键技术，并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术。
　　1．视频对象提取技术
　　MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来，然后针对不同对象采用相应编码方法，以实现高效压缩。因此视频对象提取即视频对象分割，是MPEG-4视频编码的关键技术，也是新一代视频编码的研究热点和难点。
　　视频对象分割涉及对视频内容的分析和理解，这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善，计算机还不具有观察、识别、理解图像的能力；同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此，尽管MPEG-4 框架已经制定，但至今仍没有通用的有效方法去根本解决视频对象分割问题，视频对象分割被认为是一个具有挑战性的难题，基于语义的分割则更加困难。
　　目前进行视频对象分割的一般步骤是：先对原始视频/图像数据进行简化以利于分割，这可通过低通滤波、中值滤波、形态滤波来完成；然后对视频/图像数据进行特征提取，可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征；再基于某种均匀性标准来确定分割决策，根据所提取特征将视频数据归类；最后是进行相关后处理，以实现滤除噪声及准确提取边界。
　　在视频分割中基于数学形态理论的分水岭（watershed）算法被广泛使用，它又称水线算法，其基本过程是连续腐蚀二值图像，由图像简化、标记提取、决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良，能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息，对噪声较敏感，且未利用帧间信息，通常会产生图像过度分割。
　　2． VOP视频编码技术
　　视频对象平面（VOP，Video Object Plane）是视频对象（VO）在某一时刻的采样，VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略，即对前景VO的压缩编码尽可能保留细节和平滑；对背景VO则采用高压缩率的编码策略，甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应，而且使用户可与场景交互，从而既提高了压缩比，又实现了基于内容的交互，为视频编码提供了广阔的发展空间。
　　MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用，如可视电话、会议电视，MPEG-4则采用VLBV（Very Low Bit-rate Video，极低比特率视频）核进行编码。
　　传统的矩形图在MPEG-4中被看作是VO的一种特例，这正体现了传统编码与基于内容编码在MPEG-4中的统一。VO概念的引入，更加符合人脑对视觉信息的处理方式，并使视频信号的处理方式从数字化进展到智能化，从而提高了视频信号的交互性和灵活性，使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。
　　3．视频编码可分级性技术
　　随着因特网业务的巨大增长，在速率起伏很大的IP（Internet Protocol）网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下，视频分级编码的重要性日益突出，其应用非常广泛，且具有很高的理论研究及实际应用价值，因此受到人们的极大关注。
　　视频编码的可分级性（scalability）是指码率的可调整性，即视频数据只压缩一次，却能以多个帧率、空间分辨率或视频质量进行解码，从而可支持多种类型用户的各种不同应用要求。
　　MPEG-4通过视频对象层（VOL，Video Object Layer）数据结构来实现分级编码。MPEG-4提供了两种基本分级工具，即时域分级（Temporal Scalability）和空域分级（Spatial Scalability），此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL，低层称为基本层，高层称为增强层。基本层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节。
　　在随后增补的视频流应用框架中，MPEG-4提出了FGS（Fine Granularity Scalable，精细可伸缩性）视频编码算法以及PFGS（Progressive Fine Granularity Scalable，渐进精细可伸缩性）视频编码算法。
　　FGS编码实现简单，可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性，且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。
　　PFGS则是为改善FGS编码效率而提出的视频编码算法，其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿，以使运动补偿更加有效，从而提高编码效率。
　　4．运动估计与运动补偿技术
　　MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索（half pixel searching）技术和重叠运动补偿（overlapped motion compensation)技术，同时又引入重复填充（repetitive padding）技术和修改的块（多边形）匹配（modified block （polygon）matching）技术以支持任意形状的VOP区域。　
　　此外，为提高运动估计算法精度，MPEG-4采用了MVFAST（Motion Vector Field Adaptive Search Technique）和改进的PMVFAST（Predictive MVFAST）方法用于运动估计。对于全局运动估计，则采用了基于特征的快速顽健的FFRGMET（Feature-based Fast and Robust Global Motion Estimation Technique）方法。
　　在MPEG-4视频编码中，运动估计相当耗时，对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类，前者复杂度很高，实际中应用较少，后者则在H.263和MPEG中广泛采用。在块匹配法中，重点研究块匹配准则及搜索方法。目前有三种常用的匹配准则：
　　1．绝对误差和（SAD,Sum of Absolute Difference）准则；
　　2．均方误差（MSE,Mean Square Error）准则；
　　3．归一化互相关函数（NCCF,Normalized Cross Correlation Function）准则。　
　　在上述三种准则中，SAD准则具有不需乘法运算、实现简单方便的优点而使用最多，但应清楚匹配准则的选用对匹配结果影响不大。　
　　在选取匹配准则后就应进行寻找最优匹配点的搜索工作。最简单、最可靠的方法是全搜索法（FS,Full Search），但计算量太大，不便于实时实现。因此快速搜索法应运而生，主要有交叉搜索法、二维对数法和钻石搜索法，其中钻石搜索法被MPEG-4校验模型（VM,Verification Model）所采纳，下面详细介绍。　
　　钻石搜索（DS,Diamond Search）法以搜索模板形状而得名，具有简单、鲁棒、高效的特点，是现有性能最优的快速搜索算法之一。其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性。在搜索最优匹配点时，选择小的搜索模板可能会陷入局部最优，选择大的搜索模板则可能无法找到最优点。因此DS算法针对视频图像中运动矢量的基本规律，选用了两种形状大小的搜索模板。　
　　· 大钻石搜索模板（LDSP,Large Diamond Search Pattern），包含9个候选位置；
　　· 小钻石搜索模板（SDSP,Small Diamond Search Pattern），包含5个候选位置。　
　　DS算法搜索过程如下：开始阶段先重复使用大钻石搜索模板，直到最佳匹配块落在大钻石中心。由于LDSP步长大，因而搜索范围广，可实现粗定位，使搜索不会陷于局部最小，当粗定位结束后，可认为最优点就在LDSP 周围8 个点所围菱形区域中。然后再使用小钻石搜索模板来实现最佳匹配块的准确定位，以不产生较大起伏，从而提高运动估计精度。
　　此外Sprite视频编码技术也在MPEG-4中应用广泛，作为其核心技术之一。Sprite又称镶嵌图或背景全景图，是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。　
　　Sprite视频编码可视为一种更为先进的运动估计和补偿技术，它能够克服基于固定分块的传统运动估计和补偿技术的不足，MPEG-4正是采用了将传统分块编码技术与Sprite编码技术相结合的策略。
4 结束语
　　多媒体数据压缩编码的发展趋势是基于内容的压缩，这实际上是信息处理的高级阶段，更加向人自身的信息处理方式靠近。人的信息处理并不是基于信号的，而是基于一个比较抽象的、能够直接进行记忆和处理的方式。　
　　MPEG-4作为新一代多媒体数据压缩编码的典型代表，它第一次提出了基于内容、基于对象的压缩编码思想。它要求对自然或合成视听对象作更多分析甚至是理解，这正是信息处理的高级阶段，因而代表了现代数据压缩编码技术的发展方向。　
　　MPEG-4实现了从矩形帧到VOP的转变以及基于像素的传统编码向基于对象和内容的现代编码的转变，这正体现了传统视频编码与新一代视频编码的有机统一。基于内容的交互性是MPEG-4的核心思想，这对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。
编辑本段应用
（1)应用于因特网视音频广播
　　由于上网人数与日俱增，传统电视广播的观众逐渐减少，随之而来的便是广告收入的减少，所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播，观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘，然后再播放，而是流媒体视频(streaming video)，点击即观看，边传输边播放。
　　现在因特网中播放视音频的有：Real Networks公司的 Real Media，微软公司的 Windows Media，苹果公司的 QuickTime，它们定义的视音频格式互不兼容，有可能导致媒体流中难以控制的混乱，而MPEG-4为因特网视频应用提供了一系列的标准工具，使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4，应该说是一个安全的选择。
（2)应用于无线通信
　　MPEG-4高效的码率压缩，交互和分级特性尤其适合于在窄带移动网上实现多媒体通信，未来的手机将变成多媒体移动接收机，不仅可以打移动电视电话、移动上网，还可以移动接收多媒体广播和收看电视。
（3)应用于静止图像压缩
　　静止图像（图片）在因特网中大量使用，现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像(纹理)压缩是基于小波变换的，在同样质量条件下，压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG 图片转换成MPEG-4格式，可以大幅度提高图片在网络中的传输速度。
（4)应用于电视电话
　　传统用于窄带电视电话业务的压缩编码标准，如H261，采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率，但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号，使电视电话业务可以在窄带的公用电话网上实现。
（5)应用于计算机图形、动画与仿真
　　MPEG-4特殊的编码方式和强大的交互能力，使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材，

MPEG4 高清技术算计显卡
并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展，产生出今天无法想象的动画及仿真效果。
（6)应用于电子游戏
　　MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码，在编码方式上具有前所未有的灵活性，并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏，实现极高自由度的交互式操作。
（7）硬件产品上面的应用
　　目前，MPEG4技术在硬件产品上也已开始逐步得到应用。特别是在视频监控、播放上，这项高清晰度，高压缩的技术得到了众多硬件厂商的钟爱，而市场上支持MPEG4技术的产品也是种类繁多。下面笔者就列举一些代表性的产品，旨在让读者了解MPEG4技术在今天应用范围之广。
　　1．、摄像机：日本夏普公司推出过应用在互联网上的数字摄像机VN－EZ1。这台网络摄像机利用MPEG4格式，可把影像文件压缩为ASF（高级流格式），用户只要利用微软公司的MediaPlayer播放程序，就可以直接在电脑上进行播放。
　　2．、播放机：飞利浦公司于今年八月份推出了一款支持DivX的DVD播放机DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4标准，而对于新标准的支持则可以通过升级固件来实现。（3）、数码相机：日本京瓷公司在11月中旬发售其最新款数码相机Finecam L30，这款是采用300万像素、3倍光学变焦设计的数码相机产品， L30采用了MPEG4格式动态视频录制，可以让动态视频录制画面效果比传统数码相机更出色。
　　4．、手机：在手机领域，MPEG4技术更是得到了广泛的应用，各大手机厂商也都推出了可拍摄MPEG4动态视频的手机型号，如西门子ST55、索尼爱立信P900/P908、LG 彩屏G8000等。
　　(5)、MPEG4数字硬盘：在今年深圳举行的安防展览会上，开发数字录像监控产品的厂家纷纷推出了他们的最新产品，而支持MPEG4的DVR压缩技术也成为改展会上的亮点。
综述
　　如北京华青紫博科技推出的"E眼神MPEG4数字视频王"便是一款基于网络环境的高清晰数字化监控报警系统。内置多画面处理器，集现场监控、监听、多路同时数字录像与回放等多种功能为一体。
　　其实，市场上还有许多基于MPEG4技术的硬件产品，笔者这里就不一一列举了，不过笔者相信，随着视频压缩技术的不断发展，MPEG4技术的产品会越来越多的出现在我们生活，工作中。
相关阅读:
[ES6]react中使用es6语法
 [前端自动化]grunt的简单使用
 [react-native]react-native填坑笔记
 [CSS布局]简单的CSS三列布局
 简单说下cookie，LocalStorage与SessionStorage.md
[算法学习]开始leetcode之旅
 monorepo和multrepo的简介
 异步请求（ajax，http）之逐渐完善的大全
 Java中Synchronized的用法
 Node.js小白开路（一）-- fs篇
原文地址：https://www.cnblogs.com/eustoma/p/2415792.html