今年央视春晚收视率最高的节目是“满城烟花”,由50架微型无人机编队组成的飞舞表演让人印象深刻。
20架顶着雪花灯的无人机在舞台前领舞, 15架顶着小红灯笼的无人机在两边配舞。让无人机的飞行整体有序的秘密就在那个850nm的LED灯上(俗称小金豆)。26台OptiTrack高精度三维运动捕捉相机,可以捕捉到每架无人机上的“小金豆”发出的红外光。
OptiTrack运动捕捉相机是美国Natural Point公司研发生产的高性价比运动捕捉系统,它采用红外影像追踪技术来对人体和目标物的三维运动进行分析和重建。实际上,OptiTrack运动捕捉系统早已广泛运用于影视拍摄、动漫游戏、虚拟现实等行业。火透半边天的3D电影《阿凡达》便是使用这种光学动作捕捉系统进行拍摄。随后各大制作厂商纷纷效仿,近些年使用OptiTrack运动捕捉系统进行拍摄的电影电视剧层出不穷。
无论是无人机舞蹈表演,还是3D电影拍摄,其背后都有计算机视觉技术的强大支持。进入人工智能时代,三个最热门的词莫过于无人机、无人驾驶和机器人。这些无人参与操作的智能设备有什么共性?首先是要有一个“大脑”,即用计算机代替人脑来处理大量复杂的信息数据。其次,都需要“眼睛”来感应周围环境并做出及时且正确的反应。这些智能机器的“大脑”由一组高性能CPU芯片组成,其“眼睛”则是由摄像头、视觉处理器(VPU)和专有的软件系统实现。这种“眼睛”背后的驱动力就是我们所讨论的计算机视觉或机器视觉技术。
作为计算机科学的一个分支,计算机视觉最早开始于上世纪70年代的人工智能研究。从工程学的角度来看,它是利用计算机来实现人类视觉系统可以完成的任务,主要包括数字图像和3D图像的采集、处理和分析方法。其应用领域主要有医疗成像、工业机器人自动检测、安保和统计、人机交互等。最近才火爆起来的无人驾驶汽车也是计算机视觉发挥重要作用的市场。下图是火星探测车的概念模型车Rover,注意其头部的立体摄像头就是这种无人车的“眼睛”。
将计算机视觉技术应用于高级驾驶辅助系统(ADAS)和自动驾驶领域最成功的公司当属以色列的Mobileye,其股票市值超过10亿美元,全球主要汽车厂商和Tier 1汽车零配件供应商都在使用该公司的视觉感应处理芯片EyeQ及配套的自动感应系统。去年Mobileye与BMW和Intel达成合作联盟,共同开发自动驾驶平台和地图。最近Mobileye又与德国大众合作,计划提供自动驾驶租车服务。
Mobileye多年专注于汽车行业的计算机视觉技术研发,其EyeQ系列芯片已经成为自动驾驶感知部分的关键器件。最近型号EyeQ 4及未来的升级版EyeQ 5系列将可以实现L3-L5级别的自动驾驶。下图是其EyeQ 4芯片的内部组成模块示意图。
据图森互联科技公司首席科学家王乃岩介绍,无人驾驶技术链非常长,但基本可分为三个阶段:感知、决策和控制。计算机视觉技术主要应用在无人驾驶的感知阶段,其基本原理大致如下:
1.使用双目视觉系统获取场景中的深度信息。它可以帮助进行后续的图像语义理解,在无人驾驶中可以帮助探索可行驶区域和目标障碍物。
2.通过视频来估计每一个像素的运动方向和运动速度。
3.对物体进行检测与追踪。在无人驾驶中主要是各种车辆、行人、非机动车。
4.对于整个场景的理解。最重要的有两点,第一是道路线检测,其次是在道路线检测下更进一步,即把场景中的每一个像素打成标签,这叫做场景分割或者场景解析。
5.同步地图构建和定位技术,即SLAM(Simultaneous Localization and Mapping)技术。
目前计算机视觉在无人驾驶上的应用有两个难点。
• 第一个难点是精度和可靠性可能达不到预期要求,但是这几年深度学习发展迅速,这方面的难点会被一一攻克;
• 第二个难点在于传感器本身,比如说过曝和欠曝,都是非常严重和常见的问题。解决这个问题的方法就是通过传感器融合,也就是说当视觉传感器失效的时候,可以融合其它传感器,包括毫米波雷达甚至激光雷达,以便对周围环境进行感知来保证车辆的安全。
机器视觉在基本原理上跟计算机视觉类似,可以说是计算机视觉在自动化检测和工业控制方面的系统工程分支。跟计算机视觉不同的是,机器视觉侧重于以新的方式集成现有技术,并用于解决现实世界的图像处理问题。一个基本的机器视觉系统主要包括光源、摄像头、视觉处理器和输出组件。其主要应用在于自动化检测和工业机器人导视系统,最近几年发展起来的无人机也是机器视觉的一个新兴应用市场。
大疆的Mavic Pro系列无人机采用了双目立体视觉的精准悬停技术,突破了光流定位的局限性,甚至可实现户外高空飞行时无GPS信号的精准悬停。它能够实时感知飞行前方30米的环境情况,可在15米范围内的障碍物前自动刹车悬停或者绕行,从而大幅提升了飞行的安全性。此外,它还能在起飞时采集地面图像,在自动返航时能精准地返回起飞地点。
这种精准悬停功能的实现得益于Movidius公司的Myriad 2视觉处理器(VPU)。该公司的机器视觉处理芯片Myriad 2及配套的机器视觉智能算法系统在谷歌、联想的智能设备中也有使用。此外,全球领先的安防系统供应商海康威视最近在中东(迪拜)国际安防设备与技术展览会(Intersec Middle East)上展出了“雄鹰”Ⅲ系列六旋翼飞行器。这种无人机融入了先进的智能视觉感知系统(由Movidius的Myriad 2视觉处理器实现),以及超声光流定位系统,可以实现远距离智能感知障碍物,并自动悬停,从而避免危险发生。依靠超声和光流系统,它能够在无GPS的情况下精准定位,起降时更加安全。
Movidius于去年9月份被INTEL收购,成为英特尔物联网和自动驾驶事业部的一部分。PC行业的持续衰退迫使英特尔频频出手收购深度学习和计算机视觉方面的技术公司,期望在新兴的人工智能时代把握住物联网和自动驾驶的巨大商机,以保持其市场霸主地位。
在AI时代,从前局限于计算机科学研究和特定行业应用的计算机视觉和机器视觉技术开始走向前台,点亮无数智能设备的“眼睛”。随着无人机、机器人和无人驾驶等新兴智能设备的快速发展,计算机视觉和机器视觉在传统意义上的区别也变得模糊不清。无论在工厂还是在商店,在高速公路上还是在空中,我们都将看到越来越多的智能“眼睛”在扫视和采集周围环境信息。这些智能设备的普及不但可以解放人手,而且连人的眼睛也可以解放出来。