Sora 的诞生不仅在视频生成长度和逼真度上远超现有竞品,更在技术创新方面引领了智能驾驶行业的未来。Sora 的核心技术创新点——时空编码和 DiT 模型,可能对智能驾驶行业的深远影响。
● 时空编码:打破视频数据训练的关键
Sora 的时空编码是将完整视频切分成带有时间维度的一系列 Tokens 输入 Transformer 模型的重要创新。类似于语言模型中的 Token,时空编码将视频数据进行划分,为 Sora 进行大规模视频数据训练提供了关键支持。
这项技术使得 Sora 能够高效地处理各种时长、分辨率、长宽比的视频数据,同时保证生成结果在三维空间内具备一致性。
● DiT 模型:Diffusion+Transformer的创新结合
DiT 模型是 Sora 中的另一重要创新,结合了 Diffusion 扩散模型和 Transformer 模型的优势。传统的 Diffusion 模型采用 U-Net 网络结构,通过卷积神经网络实现图像的去噪过程。
而 Sora 将 Transformer 模型替代了传统的 U-Net 网络,使得模型更擅长捕捉长距离的相关关系。这一创新让 Sora 在视频生成中具备更高的准确性和逼真度。
● Sora验证了Diffusion+Transformer技术路线的有效性
Sora 的成功验证了 Diffusion+Transformer 技术路线对于实现世界模型的有效性。目前,神经网络模型的预测结果仅是概率输出,缺乏因果关系的推断能力,容易出现常识错误或违背现实物理规律。
世界模型的概念旨在使神经网络模型更像人类一样理解世界,具备物理世界运行规律、泛化到训练样本以外的能力以及基于记忆进行自我演进的特点。Sora 采用的 Diffusion+Transformer 技术路线为实现世界模型提供了可行性的验证,为智能驾驶领域的技术进步奠定了基础。
特斯拉作为另一巨头在智能驾驶领域的探索与 Sora 有相似之处。在 CVPR 会议上,特斯拉展示了对世界模型的探索,效果惊艳。
特斯拉采用了与 Sora 相似的 Diffusion+Transformer 生成式 AI 技术路线。这一趋势表明,世界模型的应用在智能驾驶领域将逐渐得到推广,成为行业的主流技术路径。
短期内,世界模型有望在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用 NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性,但泛化性不足。
世界模型的能力在于理解物理世界运行规律,并具备泛化到训练样本以外的能力,从而迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。
长期来看,世界模型有望成为智能驾驶的基座大模型,实现插入任务头的方式处理所有智能驾驶下游任务。这将消除corner case,提高智能驾驶的驾驶安全性和效率,使其占优于人类驾驶员。
Sora 模型的诞生标志着智能驾驶领域技术的新突破。其时空编码和 DiT 模型的创新为视频生成提供了全新的思路,同时验证了 Diffusion+Transformer 技术路线在实现世界模型方面的可行性。
未来,随着世界模型技术在智能驾驶领域的不断发展,我们有望迎来一个智能驾驶的全新时代。