近日Facebook发表了一篇关于从现实视频中提取角色的论文Vid2Game: Controllable Characters Extracted from Real-World Videos(Vid2Game:从真实世界视频中提取可控制的角色)。
在这篇论文中,Facebook提出了一个新的AI模型,这个模型可以对原始视频中的动态的角色进行定位和提取,提取后的角色可被开发者控制,并且添加上任意背景即可生成新视频。
这个团队的方法依赖于两个神经网络,或者说是模仿生物神经元的数学函数层: Pose2Pose,一个将当前姿态和单一实例控制信号映射到下一个姿态的框架;Pose2Frame,将当前姿态和新姿态(以及给定的背景)一起放在输出帧上。这些操作可以由任何“低维”信号控制,比如来自操纵杆或键盘的信号。研究人员表示,该系统足够强大,可以在动态背景中定位提取图像,并将现有背景进行任意的更换,融合成新的图像后生成视频输出。
这种AI模型生成新的视频有两个具体步骤。首先,将包含一个或多个图像的输入视频输送到一个特定区域(如舞蹈)训练的Pose2Pose网络中,该网络将这些图像(加上预估的前景空间掩模)和它们的运动隔离开来,特定区域将作为它们质心的轨迹。(掩模用于确定哪些区域的背景被合成的图像信息所取代。)
然后,使用这些和组合而成数据,Pose2Frame将场景中与角色相关的变化(如阴影、被持有的物品和反射)和与角色无关的变化分开,最终可以形成任何想要的背景与动作的混合视频输出。
为了训练这个AI系统,研究人员采集了三个视频,每个视频长度在5到8分钟之间。这三个视频分别为:一个网球运动员在户外、一个人在室内挥舞着剑、一个人在走路。
研究人员报告说,将这三个视频与传输舞者三分钟视频的神经网络模型相比,他们的方法成功地对动态元素进行了对比,如其他人和摄像机角度的差异,以及角色服装和摄像机角度的变化。
研究人员在论文中写道:“每个网络都解决了之前未完全满足的计算问题,同时为生成具有逼真图形的视频游戏铺平了道路。此外,从类似YouTube的视频中提取的可控角色可以在虚拟世界和增强现实中找到自己的位置。”
Facebook并不是唯一一家研究可能有助于游戏设计AI系统的公司。
初创AI技术公司Promethean AI利用机器学习帮助人类艺术家为视频游戏创作艺术形象,利用自动化省去重复的建模工作。
AI视觉计算公司Nvidia的研究人员最近有展示了一种可以使用视频片段创建虚拟环境的生成模型。
机器学习也被用来优化复古游戏中的旧游戏纹理,如《最终幻想VII”和“塞尔达传说:暮光公主》,以及在游戏《毁灭战士》中从零开始生成数千个关卡。
AI已经被越来越广泛的应用到了各个领域,各行业都在利用AI技术寻找新的突破口。
在图像处理领域,AI图像技术正在帮助游戏行业优化或者开发更有趣的产品,并逐渐成为游戏行业竞争的又一个重要因素。
(原文来自:VentureBeat,智东西编译)