谷歌研究院的人工智能研究人员团队开发了一种名为 Lumiere 的下一代基于人工智能的文本到视频生成器。
在过去的几年里,人工智能应用程序已经从研究实验室转移到了广大的用户社区——例如,ChatGPT 等法学硕士已经与浏览器集成,允许用户以前所未有的方式生成文本。
最近,文本到图像生成器允许用户创建超现实的图像。文本到视频生成器允许用户仅使用几个单词即可生成短视频剪辑。在这项新的努力中,Google 团队发布了一款名为Lumiere的文本到视频生成器,将最后一个类别提升到了新的高度。
Lumiere 很可能以早期摄影设备先驱卢米埃尔兄弟的名字命名,它允许用户输入一个简单的句子,例如“两只浣熊一起读书”,然后返回一个完整完成的视频,显示两只浣熊正在这样做,而且它是在令人惊叹的高分辨率。新的生成器通过创建更好看的结果,代表了文本到视频生成器开发的下一步。
Lumiere 生成的示例结果,包括文本到视频生成(第一行)、图像到视频(第二行)、样式引用生成和视频修复(第三行;边界框表示修复蒙版区域)。图片来源:arXiv (2024)
谷歌将新型发电机背后的技术描述为“突破性的时空 U-Net 架构”。它旨在在单个模型通道中生成动画视频。
演示视频显示,谷歌添加了额外的功能,例如允许用户通过突出显示视频的一部分并输入指令(例如“将衣服颜色更改为红色”)来编辑现有视频。生成器还生成不同类型的结果,例如风格化,其中创建主题的风格而不是全彩表示。它还允许子样式,例如不同的样式引用。它还具有电影图像功能,用户可以突出显示部分或全部静止图像并使其动画化。
谷歌在其声明中没有具体说明他们是否计划向公众发布或分发 Lumiere,这可能是因为可能创建违反版权法的视频可能会产生明显的法律后果。
该论文已发表至arxiv。