广告

西安交通大学开源SadTalker模型,图片+音频秒变视频!

2023-04-20 15:43:29 综合报道 阅读:
近日,西安交通大学也开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。

据EDN电子技术设计报道,Meta近期开源了一个人工智能项目"Animated Drawings",任何人都能把他们的涂鸦变成动画。近日,西安交通大学也开源了类似的人工智能项目。O72ednc

据EDN了解,该项目为SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。O72ednc

O72ednc

据介绍,通过人脸图像和一段语音音频生成说话的头部视频仍然包含许多挑战。即不自然的头部运动、扭曲的表情和身份修改。研究团队认为这些问题主要是因为从耦合的 2D 运动场中学习。另一方面,明确使用 3D 信息也存在表情僵硬和视频不连贯的问题。

为了学习真实的运动系数,研究人员显式地对音频和不同类型的运动系数之间的联系进行单独建模:通过蒸馏系数和3D渲染的脸部,从音频中学习准确的面部表情;通过条件VAE设计PoseVAE来合成不同风格的头部运动。

O72ednc

最后使用生成的三维运动系数被映射到人脸渲染的无监督三维关键点空间,并合成最终视频。O72ednc

音频可以是英文、中文、歌曲,视频里的人物还可以控制眨眼频率!O72ednc

研究天对进行了广泛的实验,以证明该方法在运动和视频质量方面的优越性。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。O72ednc

论文链接:https://arxiv.org/pdf/2211.12194.pdfO72ednc

项目主页:https://sadtalker.github.io/O72ednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了