本文的1.3章节实际上已经针对ToF模组的构成有了个简单的介绍,这里再进行一次更为细致的解读。由前文的ToF原理与市场分析便可知,ToF模组至少包含了发射端与接收端两部分。这两部分本身内部还有更多的构成要素。总体上在本文探讨范畴内的ToF摄像头包括的主要组成部分有:
(1)发光单元,用于照亮场景,通常光源采用红外光。对于相位检测方法而言,光需要以超过100MHz的高速频率做调制,可行的光源通常就为LED或激光二极管[17]。在我们的采访中,在发射端VCSEL较有技术积累的ams也告诉我们:
“工业界有三种光源:LED、EEL(边缘发射)、VCSEL(垂直腔面激光发射器)。理论上三种光源都可以用于ToF。VCSEL的优势在于:a.它可以做成各种形状,并且尺寸很小,所以可以轻易集成到手机里;b.VCSEL的效率比LED高约10%;c.VCSEL的上升下降沿时间十分短,适合于短脉冲和高重复频率,所以非常适合目前的dToF应用;d.VCSEL的波长随温度漂移只有0.07纳米/度,也非常适用于车载;e.VCSEL寿命长,对环境要求低。”
VCSEL的主要供应商有Lumentum、ams(Princeton Optronics)、纵慧芯光(Vertilite)、Finisar(菲尼萨)、Trumpf(Philips Photonics)等。
图3.1.1,应用于LG G8 ThinQ手机的VCSEL die,这里的ToF模组来自英飞凌/pmd,来源:System Plus Consulting[18]
值得一提的是,即便是VCSEL光源本身,其生产还可能涉及到更多的市场参与者,例如外延片生长流片与测试、封装。这些所涉及的产业链玩家还会更多。
(2)光学器件(图3.1.2)。无论是发射端光源之前,还是反射光进入接收端之前,都需要光学器件。比如应用于VCSEL激光器光源之后的diffuser(扩散器),这是一种beam shaper,用于对光束做均一化,并让较窄的光束扩展到更宽的角度;diffuser供应商除了ams(Princeton Optronics)之外,还有Finisar(菲尼萨)、PRC、舜宇光学、Viavi Solutions等。
ToF接收端,即红外摄像头的光学器件还包括了一枚窄带滤光片,仅允许特定波长(通常为940nm或850nm)的光通过。这种红外滤光片的供应商主要有Viavi Solutions、水晶光电等。
而在反射光进入接收端的传感器之前,还需要经过镜组对光线聚焦(在发射端之后可能也需要某种形式的光学镜片参与)。这些镜片与传统摄像头的镜片在原理上类似,供应商包括有舜宇光学、欧菲光、瑞声科技、大立光、玉晶光等。
图3.1.2,ToF模组光路中涉及到的光学器件,来源:Viavi Solutions[19]
(3)图像传感器。一般来说,接收端的图像传感器就是我们常说的ToF传感器(事实上并不能简单将ToF图像传感器说成是接收端的组成部分,例如英飞凌REAL3™图像传感器就包含了照明控制单元和部分外围电路),就ToF的技术原理与特点来看,它是整个ToF模组的核心单元,用于接收反射回的红外光。而且ToF技术中应用的图像传感器技术要求也相较结构光明显更高。
2.3章节介绍的ToF分类中,由于不同类别的ToF方法有各自的特性,所以不同方法所需的图像传感器技术有较大差别。这一市场的主要参与者有英飞凌/pmd、意法半导体、索尼、松下、ams等。
有关ToF传感器的构成概述,还将在下文详述。对于不同的ToF实现方法来说,对应的传感器也是不一样的。例如最早商用ToF 3D感知的手机LG G8 ThinQ采用英飞凌的CMOS图像传感器——这是目前比较常见的cwToF方法。
而vivo NEX双屏版选择了松下的CCD图像传感器[20]——推测这款手机所用的方案可能是pToF。ADI也是ToF技术的CCD图像传感器主要供应商,但其市场并不着力于手机产品。而CCD如今已经少见于移动消费设备了,CCD有自身的一些优点,比如说在高像素上暂有优势,而且感光度高,特别是940nm波段有较好表现,对室外强光有更天然的适用性;另外就是前文提到pToF本身的一些优势。但CCD功耗和发热都比较大,这是它或许并不怎么适用于手机产品的原因。
对dToF来说,技术又更复杂一些。2.2章节提及ToF光学测距的例子时,就提到了SPAD(单光子雪崩二极管)。实际上,由于dToF方法对时间抖动要求较高,它对于整个ToF模组都有着很高的技术要求,传感器(或光电探测器)也不例外。所以dToF方法所用的图像传感器常见APD(雪崩光电二极管),相比传统图像传感器的光电二极管,这种光电二极管有着较高的增益和量子效率。简单地说,APD传感器能够实现电子倍增(就像电子发生雪崩一样,如图3.1.3)。APD图像传感器的市场参与者有松下等。
图3.1.3,传统图像传感器光电探测器结构与APD图像传感器的比较,来源:Panasonic[21]
就脉冲调制光的方案来看,可采用较低工作周期的照明,主动照明光可以短脉冲宽度以及高峰值输出功率,同时兼顾人眼安全。由于峰值功率较高、SBNR(signal-to-background-noise ratio)也就极大提升,探测距离也就可以比较远;而且APD可以避免多径干扰之类的问题。不过APD像素尺寸一般也非常大,要实施像素大阵列,或者说高像素也就很有挑战。很多选择APD像素的ToF装置也因此需要有包含机械动作的扫描。这就不属于我们要探讨的移动设备或者手机范畴了。
dToF方案里另一个比较有代表性的传感器技术是前文就提到的SPAD(单光子雪崩二极管),它和APD的差别在于:它比APD更敏感,一个光生载流子就能触发大量雪崩电流;另外APD的dToF方案里,TDC(time-to-digital converter)的触发信号是由一个互阻抗放大器(TIA)产生的,而SPAD一般能够直接产生数字触发信号,也就是所谓的像素内TDC(in-pixel TDC)。SPAD相比APD得以实现小像素尺寸,而且与CMOS全兼容,SPAD像素阵列芯片级高度集成也就可行了。除了更低的时间抖动,单光子检测属性让脉冲宽度很短,输出功率也就可以比较高,SBNR自然可以更高。
SPAD与APD一样都利用入射辐射触发p-n结的雪崩电流,两者的根本差别在于SPAD设定了一个高于击穿电压的反向偏置电压,二极管可工作在所谓的“Geiger-mode”下。基于SPAD的dToF系统,实现TCSPC(时间相关单光子计数)。当然APD技术也在发展中,比如松下今年才发布了一种名为VAPD(垂直堆栈APD)的技术,以实现像素的小型化,能够实现远距离、高测距精度和更高的像素[14]。
由于iPad Pro 2020采用dToF方法,只是我们并不清楚其中的具体实现,所以这里稍稍介绍了dToF相关的图像传感器技术——至少在3D感知和成像方向上,它们的应用范围很多时候并不在以手机或移动设备为代表的消费电子产品中,因为其小型化尚有难度。
(4)模组与方案设计。模组和方案设计环节的市场参与者有英飞凌/pmd、索尼、微软、意法半导体等。其中比较有代表性的是英飞凌。英飞凌与pmd的合作是其业务发展的亮点。pmd是一家德国企业,在基于CMOS的ToF图像传感器、相关算法与软件,以及ToF摄像头系统组件校准上,都颇有建树。英飞凌则专注于半导体工艺、产品研发和生产。这两家公司在ToF领域的合作已经持续了数年,主要面向汽车、工业和智能手机应用。
2019年11月,英飞凌宣布收购pmdtechnologies公司15%的股份[22],也表明双方对ToF应用持续发展的看好。这两家公司联合推出的REAL3™图像传感器系列,在分工上,pmd提供ToF像素矩阵,而英飞凌为片上系统(SoC)集成提供所有功能模块,并研发ToF优化CMOS制造工艺。
图3.1.4,英飞凌与pmd在ToF领域的合作,来源:英飞凌
双方的合作细节如图3.1.4。在今年的CES 2020展会上,英飞凌/pmd再度亮相了一款据说是“全球最小的3D深度感知模块,且拥有最高分辨率”(尺寸4.4 x 5.1mm)。应用面向智能手机与移动集成,其上除了IRS9100C照明驱动IC之外,其中的REAL3™图像传感器(IRS2877C),5μm的“像素核心(pixel core)”,VGA分辨率,这应该可以代表整个行业的发展方向[23]。
(4)驱动电路、外围电路、计算、软件与其他。驱动电路,例如发射端的照明单元与接收端的图像传感器都需要由高速信号进行控制与同步,这些信号需要足够精准以实现高精确度:照明单元和传感器信号之间有时间偏差,就会有距离偏差,实现这种偏差的可控就很重要。
而计算则相关于信号从图像传感器像素阵列输出后的转换、处理、计算等。举个例子,比如对于pToF系统而言,通常需要外置的模拟前端,对深度数据进行数字化并输出;而cwToF系统则可能因为数据处理的复杂性,而需要外部处理器进行后端处理。当然数据处理自然涉及到算法,以及往终端应用方向提供接口,甚至提供一些扩展应用的解决方案等。这些并非本文要探讨的重点,此处不再赘述。不过需要指出的是,可能由于不同厂商的实施方案差异,某些电路的不同位置可能会有不同。
如前文所述,我们认为cwToF会在未来成为手机及移动消费类电子产品中,3D感知的主流方案。而且前不久英飞凌宣布与高通达成合作,开发基于骁龙865移动平台的3D认证参考设计:这个参考设计采用REAL3™ ToF传感器[24],说明这类方案是比较有代表性的。所以这里我们选择在cwToF方法实现中比较有代表性的英飞凌/pmd联合开发的REAL3™图像传感器,来谈一谈在3D ToF的整个模组中,图像传感器究竟扮演着什么样的角色,及其内部构成如何。
图3.2.1,ToF原理与框图,来源:英飞凌[23]
从图3.2.1中3D图像传感器REAL3™划定的范围来看,它实则并不仅限于像素阵列以及ADC;整个传感器还相关发射端联动的控制器和调制过程。
以英飞凌/pmd的IRS2381C为例,像素阵列(224x172,像素尺寸14μm)主要接收940nm红外光;除此之外的部分还包括了集成的ADC,高度弹性的调制单元(modulation),包括了人眼安全电路(laser-class-1激光安全级别)的照明控制逻辑,高速CIS-2数据接口;另外IRS2381还包含优化的电源供给单元,以及一个全SPI主内存接口。
图3.2.2,英飞凌ToF传感器与模组,来源:英飞凌
传感器的尺寸是4.4 x 4.8mm(图3.2.2),除了图像传感器外,模组还需要加入光源、光学器件等组成部分。外加功耗与成本考量,它适用于手机这类紧凑型产品。值得一提的是,如3.1章节提到的,模组与方案设计供应商不仅提供硬件本身,像英飞凌这类厂商也提供完整的服务包。除了图像传感器之外,英飞凌提供的服务也包括了软件驱动、3D深度处理管线、参考设计,还有针对校准的参考产品设定,以及针对摄像头模组制造商和OEM厂商的测试等。
2.3章节提到过,cwToF方案的信号处理复杂度会比较高,可能需要外部应用处理器,这一点也体现在了图3.2.1中。它可能是手机中的应用处理器。处理器通过I2C与整个ToF模组通讯,如下达控制指令;与此同时ToF模组的3D影像原始数据会通过MIPI CSI-2输出并由应用处理器做处理,如深度图的计算(包括相位差到距离的计算), 最终可以得到场景对象的深度信息(与灰阶图)。这些信息再往后传递,就相关于功能实现的算法了,例如华为手机的手势交互。
在后续更偏具体应用的算法与产品实现上,也有不少上游厂商积极地与算法、设计方案,以及OEM设备供应商合作,比如英飞凌与虹软(ArcSoft)、智慧眼(Athena Eyes)、DeepCam等合作,这对ToF行业发展也是有推动价值的。
这部分最后值得一提的是,这里我们并没有深入研究cwToF方法的传感器像素结构和传统摄像头图像传感器像素结构的差异,但它们理论上应该是不同的。为了让连续波相位差检测更精准,某些厂商的方案可能会采用一种特别的像素结构,可让被光电二极管转换后的电子在两个交替探测p-n结之间做切分。
在ToF技术的全套实施方案中,还需要克服许多方法本身可能存在的一些缺陷。包括系统深度误差、户外强光场景产生的深度数据噪声、场景拍摄对象的运动模糊、多径干扰、对象边缘模糊等。
这其中尤为值得一提的是,对ToF技术而言,户外这类背景光强度很大(及背景距离很远)的场景会增加深度数据的噪声。针对这个问题,很多厂商都有属于自己的解决方案。背景光抑制在不同层级都有实施方法,例如传感器之前的光学滤光片,以及可能应用的数据处理降噪算法。传感器层面也有实施方案,包括仅限定一定距离范围内的光子被检测(photon gating);或者在基于脉冲的ToF方法中进行重合光子(coincidence phontons)的检测——即在一个重合时间窗口内多个光子被检测到,即检测到重合事件——由于不相关的背景光子表现出随机的触发时间,在直方图中会表现出不一致的分布。由于激光能量集中在短脉冲之中,那么光源的激光脉冲的重合检测可能性会高于背景光,这样一来不相关的光子就可以被过滤掉。不过这些方法有应用范围限制,而且对功耗、电路复杂性、传感器尺寸都有影响。
以英飞凌为代表的厂商采用一种名为SBI(背景抑制)的技术,在具体实施方法上英飞凌就有专门的SBI专利。简单地说,SBI实质是每个像素内的电路,起到抑制像素过早发生过饱和的作用。也就是说应用了这种技术的ToF传感器可以应用到背景光很强的场景中。具体的实施细节未知。
图3.3.1,应用了SBI技术可在强光下抑制像素过早发生饱和,来源:英飞凌
从英飞凌自己的数据来看,对于一些没有采用 SBI 技术的 10μm 单像素尺寸的图像传感器,即便以 0.15 毫秒的时间来曝光,在这类场景中也很容易产生严重的过曝问题,深度数据的可用性便非常低。而当前应用了SBI专利技术的像素(14μm,当前英飞凌/pmd的REAL3™图像传感器多见这个单像素尺寸),曝光3毫秒也依然有“多20倍”的可用信息,按照英飞凌的说法,成像动态范围增加了“近20倍”。
除了背景光可能产生深度信息噪声这类问题,这里再行列举一些ToF实施方案中的其他挑战与潜在问题[16][25]:
(1)多径效应(Multipath Effects)。某些情况下 ,通过不同的反射路径,入射光可能会抵达图像传感器同一个像素。也就是说一个像素内的信号,实际上来自多个场景中的反射来源,场景对象具备高反射率的时候这个问题会格外严重。对于调幅连续波ToF方法而言,这个问题会相对突出,对于一些复杂场景的3D感知也会相对具有挑战性;但对调频连续波ToF方法,这个问题就不大突出。而对基于脉冲的ToF方法来说,通过多事件测量,则多径反射可被很容易地检测到。
(2)对象边缘模糊(Flying Pixels)。在立体角中,单个像素产生自不同距离的对象,就会产生所谓的flying pixels,如图3.3.2所示。这种情况一般发生在对象边缘位置,那么这种flying pixel像素的深度信息本质上是前景与后景不同对象的距离合成在一起的。
图3.3.2,场景中不同距离的对象产生的flying pixel问题,来源:Analysis of a pulse-based ToF camera for automotive application[25]
(3)运动伪像。和传统成像技术一样,当场景中的被观察对象以较快的速度移动(或摄像头本身就不稳定)时,成像就会产生运动伪像,且运动速度越快,错误就越大。就这个问题来说,3D感知摄像头的积分时间(integration time)就会显得很重要:更长的积分时间通常可以获得深度测量更高的精度。对于静态对象而言,降低帧率,以更长的积分时间就能获取到更高的测量精度。但与此同同时,对运动对象而言,这就会加剧运动伪像的问题。这个问题在cwToF方法中尤为突出;而对于pToF方法而言,运动伪像的问题会更小,因为pToF的曝光时间明显更短。
(4)强度相关错误。场景中某个对象的不同区域有不同的明亮色彩时,可能造成错误。比如说国际象棋棋盘这种黑白格相间的对象,测量得到黑色方格的距离可能比白色方格更近。
(5)解调错误。在前文针对ToF原理的深度计算中,实际上都默认了完美的情况。比如对于pToF而言,脉冲是完美的矩形,而cwToF则采用完美的正弦调制。但实际状况会比较复杂,包括了场景对象的光散射;场景中对象材质反射率较低会造成像素欠饱和,以及较低的信噪比;镜面对象则反射几乎所有能量,又会令像素过饱和,则令深度数据几乎不可用。
这类问题在不同的ToF实施方法中,都有相应的缓解方案;随着技术的越来越成熟,ToF产品的成熟度越来越高,这些问题或许早已被解决。