交互式视频技术,是随着网络传输速度的提升以及多媒体技术的成熟,经由各种技术手段融入产生的一种新型体验视频。而当5G时代来临,交互式视频是否会成为下一代黑科技,令业界关注。
北京大学深圳研究生院教授王荣刚在今日举行的“第二届(2020)国际电子产业链资源对接大会”AI技术分论坛上,以“自由交互视频技术及其商业前景”为主题进行了解析。
回顾视频技术的发展,从标清、高清、超高清,到如今的虚拟现实,视频需求从以前的看得见,到现在的看得清、看得真。尤其是现下5G非常火,带动了超高清视频的发展。我们把超高清视频和虚拟现实视频通称为沉浸式视频。
沉浸视频带给用户更好“临场感”的视频,这其中的要素有:分辨率、帧率、动态范围、视野范围,和一个提及较少的交互性。直到现在为止,大家看到的视频是被动接收的,导演给什么视角观众看到的就是什么视角,观众无法切换,这就是缺乏交互性的直接体现。
按照交互性,可以将现在的主流视频形式分为三种不同的形态:
1. 零自由度沉浸视频:超高清视频。无论是4K还是8K,它依旧是完全被动的,只是清晰度提高了而已,这是零自由度,没有交互性。
2. 三自由度沉浸视频:全景视频。典型的是大家熟知的VR视频,用户戴上VR头盔,随着头部的转动有相应的内容呈现,让人感觉身临其境,但这个自由度只是在三个方向上的转动,如果用户走动/移动,视频是不会发生改变的,这个时候自由度受限,所以叫三自由度。
3. 六自由度沉浸视频:自由交互视频。与三自由度相比添加了移动时视频的改变,这就是更高级的交互,真正的使人有身临其境的感觉。
目前家庭网络或是4G网络,稳定的传输带宽大概20兆左右,待到5G用到家庭,稳定的传输量在100兆左右,即使这样,传输自由沉浸视频还是非常有难度的。
另外一个困难是实时处理的困难,巨大的数据量要在一秒钟处理上百帧,这个难度是非常大的,现在的算力完全不匹配。
计算挑战是由两个维度共同叠加造成的。一方面,数据通量爆炸了,比以前增加了十倍、上百倍;另一方面,编码算法的复杂度也增加了十倍,这样一叠加就不得了了,就是上万倍了,这个挑战是非常大的。
每次标准迭代编码算法的复杂度都上升一个数量级:视频编码标准的演进,目前差不多演进了四代,第一代是以MPEG-2为代表的标清时代,再后来是H.264为代表的高清,现在是H. 265和AVS2为代表的4K时代,以及H.266和AVS3为代表的8K时代。每个时代都有不同的压缩标准,每一代压缩标准比前一代差不多提升了一倍,压缩效率提升一倍的代价是计算效率增加十倍。
4K视频:
3840 x 2160 x 50 x 15 = 6.2 Gbps
8K视频:
7680 x 4320 x 120 x 18 = 71.6 Gbps
全景视频上限:
360 x 60 x 180 x 60 x 120 x 18 = 500 Gbps!
自由视点视频:
?…
从高清到超高清,最核心的挑战来自于数据通量的爆炸。以4K为例,他的数据量差不多是高清的十倍。除了水平垂直分辨率各增加两倍以外,实际上在帧率也增加了两倍,动态范围也增加了,原始的数据量6G/秒,8K视频不是比4K视频增长4倍而是10倍。VR视频上限是500G,很多人体验过VR视频,都感觉颗粒感很强,为什么呢?因为那个分辨率远远不够,要是VR视频的上限,到22K的分辨率才行,22K的分辨率对应到一秒的数据量有500G。自由视点视频比VR视频更高级,这个数据量就更加庞大了,这个数据通量是不得了的,即使5G也无法传输原始数据量,一定要经过压缩。
视频技术不断演进,很重要的驱动力是不断的提升清晰度,让大家有临场感。但人眼视网膜分辨率的上线是有固定的指标,所以对于清晰度瓶颈,王荣刚先生认为,单视点清晰度已饱和,8K其实是个伪命题,分辨率已经饱和了,下一步视频技术的演进一定不是在分辨率上,而是往其他的纬度演进,目前往交互性上转VR已经是一种转变。
VR全景视频是以用户为中心的360度视觉范围内的视频信息。自由交互视频技术,是在VR视频的基础上再往前走一步,允许用户移动,VR只是转动(头部),而自由交互是六自由度,也就是从3DoF交互到6DoF交互。
要实现这个技术有很多路线:
光场技术,可以看成以三维空间任意点为中心的无数全景视频。理解为无数的球面视频,每个球面视频有一个中心,那个中心可以认为是空间任何一个坐标,这样可以做到往哪儿移动都可以看到不同的画面,很显然这个数据量不得了,目前来说不太现实,距离应用还比较遥远。
点云,将现实场景每个三维点视觉和空间信息全部创建出来。即将三维空间每个点的视频信息呈现出来,用点云表现出来,生成点云的过程就是一个挑战,即使有点云,点也是离散的点,弄在一起再渲染就不太自然,这种路线也不是很靠谱。
多视点方案,这是相对比较实际的。方案基于多视⻆信息估计场景三维信息,基于场景三维信息合成任意虚拟视点。通过特殊布局的摄像机阵列,三维场景拍摄下来,把空间里的三维信息勾勒出基本的结构,有了这个结构,用户可以移动到任何的视角,移动到某一个视角再基于重建的三维信息对这个进行渲染。这个方案优势在于数据量没那么大,同时他渲染出的画面通过DR、UR渲染出的画面还是比较逼真的,这种路线相对比较可行。
多个摄像机,最难的一点是如何用摄像机组建出来,这就运用到了AI深度估计技术,传统用图像处理的方法做点看点是否匹配,也存在计算速度和计算精度不够的问题,基于深度学习的技术可以把精度和细度做到非常快,可以做到实时。多视点的信息和场景的深度信息拼接到一起,构成人个视点的信息。
有了自由交互视频技术,我们看传统视频,不再是被动的看单一的视角,如果我们对某一个时刻精彩瞬间非常感兴趣,可以把它停下来,用屏交互看任意视点的信息,可以做缩放,也可以做移动,也可以做转动。
未来,自由交互将会有更多应用场景,例如体育比赛和演出、医疗手术直播、工业互联网、设备监测等等,并有希望成为5G时代的杀手级应用之一。