1周之后,谷歌CEO皮查伊就接连官宣了两个模型来正面挑战Meta的Make-A-Video,分别是Imagen Video与Phenaki。与Make-A-Video相比,Imagen Video更加突出视频的高清特性,能生成1280*768分辨率、每秒24帧的视频片段,还能理解并生成不同艺术风格的作品;理解物体的3D结构,在旋转展示中不会变形;甚至还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画。而Phenaki则能根据200个词左右的提示语生成2分钟以上的较低分辨率长镜头,讲述一个相对完整的故事。
出于安全和伦理的考虑,谷歌表示暂时不会发布两个视频生成模型的代码或Demo。Meta也承认,按需制作真实感视频的能力存在一定的社会危害,因此将所有由AI生成的视频内容都加上了水印,以“确保观众知道这段视频是由人工智能生成的,而不是捕捉到的视频。”通常情况下,传统理论认为,作为智力活动的创作只能由人类的思维活动来实现,即作品是自然人思想观念的表达。但在人工智能时代,这一理论将会受到重大挑战,人们也需要重新思考与之相关的新标准、新道德、新法规。
在计算机视觉领域中,文本生成图像或视频用到最多的就是生成模型,生成模型也在最近的文本到图像 AI 系统中取得了重大进展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。这些新模型和算法的基本思路都来自于早期最出名的GAN(生成对抗网络),即通过生成器和辨别器之间的相互对抗来生成图像。但由于模型本身具有对抗性,因此很难进行训练,而利用扩散模型则可以解决这个问题,这也是今年最火的模型之一。扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中都取得了巨大成功。