Google宣布Imagen Video：根据简短文本内容生成短视频

作者：爱集微 2022-10-06

来源：cnBeta.COM #谷歌#

1.7w

继日前 Meta 宣布 Make-A-Video 之后，Google 今天宣布了 Imagen Video 人工智能系统，可以根据简短文本内容（例如泰迪熊洗碗）生成视频片段。虽然目前生成的短视频清晰度不够，但 Google 声称 Imagen Video 是朝着具有“高度可控性”和世界知识的系统迈出的一步，包括生成镜头的能力在一系列艺术风格中。

事实上通过文本生成短视频并不是什么新鲜事情，今年早些时候，清华大学和北京人工智能研究院的一组研究人员发布了 CogVideo，它可以将文本翻译成相当高保真的短片。但 Imagen Video 似乎是对先前最先进技术的重大飞跃，显示了现有系统难以理解的动画字幕的能力。

马修·古兹迪亚（Matthew Guzdial）通过邮件表示：“这显然是重大改进。正如您从视频示例中看到的那样，即使通信团队选择了最佳输出，仍然存在奇怪的模糊和人为因素。所以这绝对不会很快直接用于动画或电视中。但它或类似的东西肯定可以嵌入工具中，以帮助加快某些事情的速度”。

Imagen Video 建立在 Google 的 Imagen 之上，这是一个可与 OpenAI 的 DALL-E 2 和 Stable Diffusion 相媲美的图像生成系统。 Imagen 是所谓的“扩散”模型，通过学习如何“破坏”和“恢复”许多现有数据样本来生成新数据（例如视频）。当它输入现有样本时，该模型可以更好地恢复之前破坏的数据以创建新作品。