前言
本文主要总结了我前段时间的工作,主要内容如下:g5Iednc
-
FOV和BEV的常用方案,对两种视角在视觉检测技术与原理上进行对比,并总结两者的优缺点;g5Iednc
-
两视角下的融合方案进行了总结:尤其是在当前学术界较为“冷门”的毫米波雷达(Radar) 与“热门”的激光雷达(lidar) 的融合方案进行对比,不同于激光雷达,编者提出了自认为较为合适的针对于Radar融合方案。g5Iednc
文章仅作为自己学习总结和知识分享,如有不妥和错误,烦请指出,谢谢~g5Iednc
一、FOV视角
FOV作为一种最接近人类的视角,拥有悠久的历史,如今的2D3D object detection皆从FOV视角做起,感官上来说,FOV视角能够提供丰富的纹理信息、深度信息,同时能够满足常用的目标检测视角需求如口罩检测、人脸识别等任务,另一方面,FOV的数据信息易于收集标注如imagenet、coco等。但是,FOV的信息也有一些缺点:遮挡问题,尺度问题(不同的物体在不同深度下尺度不同)、难以与其他模态融合、融合损失高(Lidar Radar等适合于BEV视角)等。g5Iednc
1.1 常用方案
这里把技术方案分为两个部分,一方面,简要介绍纯视觉检测方法,另一方面,重点讲解FOV视角下的融合技术,分为lidar+camera与radar+camera两类,两类在融合技术方面相似度很高,许多Radar的融合方法都是启发自Lidar融合方法。g5Iednc
1.1.1 FOV纯视觉下的检测方法
这里不过多介绍,主要分为one-stage, two-stage, anchor-based, anchor-free。除此之外,3D检测领域具有一些代表性的方法:1. 改进的2D检测方法:FCOS3Dg5Iednc
论文作者在FCOS基础上,对Reg分支进行部分修改,使其能够回归centerpoint的同时,加入其他指标:中心偏移、深度、3D bbox大小等,实现了将2D检测器用于3D检测器的跨越。除此之外,包括YOLO3D等工作,将传统的2D detector经过简单修改直接用于3D检测的方法,虽然修改取得了一定成效,但是图像本身缺乏精准的深度信息,加之结构并没有较之前的2D检测加入一定的先验结构,导致效果一般。g5Iednc
-
图像生成伪点云方法:Pseudo-Lidarg5Iednc
由公式可知,深度信息对于我们估算目标的位置非常重要,已知像素坐标和相机内参,我们还需要知道深度才能确定目标的位置,因此深度信息对于3D目标检测来说非常关键。g5Iednc
责编:Demi