自动驾驶中提到的“深度相机”是个啥?

[首发于智驾最前沿微信公众号]自动驾驶的实现离不开各类传感器的支持,其中纯视觉方案成为很多技术方案的选择,但由于摄像头无法感知到环境深度信息,因此有部分技术方案提到了“深度相机”的技术。深度相机,指的是那些除了拍颜色(RGB)以外,还能直接或间接给出“每个像素到摄像头距离”信息的传感器。简单理解就是,普通相机告诉你“这像素看起来是什么颜色、有什么纹理”,而深度相机还会告诉你“这点离车有多远”。正因为在自动驾驶里,知道距离比知道颜色更重要,车辆要判断碰不碰得上、要多早刹车、怎样规规划路径等都要依赖深度信息或与其它传感器融合后的三维感知结果。

深度相机常见的三种工作原理

深度相机的形式很多,常见的有基于两个镜头的立体相机(stereo camera)、投影结构光或编码光的相机、以及飞行时间(Time-of-Flight,ToF)相机。它们产生的深度表示通常是一张“深度图”(depth map)或者稀疏的点云,与激光雷达(LiDAR)产生的点云在用途上有交集,但在原理、精度、成本和适用场景上都有明显差别。

1)立体视觉(Stereo)

立体视觉的思路就是模仿人眼。把两台同类的彩色或黑白相机同框安装,它们之间有一个固定的“基线”(baseline,两个镜头中心之间的距离)。当看到同一场景时,图像中的同一个物体点在两幅图像上的横向位置会有差异,这个差异叫做视差(disparity)。通过已知的基线长度和摄像头的内外参,视差可以反算成深度(距离)。

车载摄像头 图片源自网络

立体法的关键在于“匹配”,算法要在左右图像里准确找到同一像素对应的点;匹配困难的地方包括无纹理表面、重复纹理、强反光或遮挡区域等场景。立体视觉的优势是可以用普通相机硬件实现,成本低、像素高,理论上分辨率和范围可以通过更大基线、更高分辨率相机提升;但其劣势就是对光照、纹理和计算资源敏感,长距离深度精度退化较快。

2)结构光与编码光

这类方法在场景中投射已知的光学图案(例如条纹、点阵或其他编码图形),然后用相机观察图案在物体表面的变形,从变形情况反推出深度。结构光在如人体建模、人脸识别设备(早期的结构光人脸识别器)等近距离应用里非常常见。其优点是近距离精度高,且因为系统自己提供“纹理”,因此对纹理依赖小。其缺点是对环境光敏感,在强阳光下投影图案容易被淹没,导致深度失败。结构光仅适合短到中距离(几厘米到几米)的应用场景,若扩展到行车所需的几十米就会遇到功率、可见性和安全性的问题。

3)飞行时间(ToF)

ToF相机通过测量光从传感器发出、到物体反射、再返回传感器所需的时间来算距离。常见实现有脉冲ToF和相位ToF两类。脉冲ToF直接测量脉冲往返时间,原理简单但要求高速电子。相位ToF发出连续调制的光信号,测量发射与接收信号之间的相位差来估算距离,这在短至中距离里更常见。

ToF的优点是能直接得到每个像素的深度,实时性好、算法复杂度低于立体匹配;缺点包括多径干扰(光在场景中多次反射导致的误读)、对强光敏感(阳光含大量红外会提升噪声)、以及范围和分辨率受限。工业级ToF可以做到几十米的量级,但在车用场景里,要兼顾分辨率、帧率和抗日照能力仍然需要工程折中。

除了这三种之外,还有一些混合方案和更靠近LiDAR的固态“闪光式”测距设备。但单纯依靠单目RGB相机做“深度估计”的方法(基于学习的单目深度估计)严格来说不是深度相机,而是用算法从单张图像推断深度的技术;这样的深度通常是相对的、带有尺度不确定性或需要额外约束校准,只能将它当作补充而不是可信赖的主深度源。

深度相机与普通相机的关键区别

普通相机输出的是亮度和颜色信息,也就是每个像素的RGB值;深度相机除了这些(有时深度相机本身也能输出RGB)之外,还输出与摄像头之间的距离信息。深度数据直接给出三维几何信息,使得后续的检测、跟踪、避障和定位变得更直接;普通相机则需要依赖视觉算法(比如通过特征匹配、结构从运动或单目深度估计)来间接获得距离。

图片源自网络

普通相机的设计追求高分辨率、宽动态范围和低噪声的图像采集,传感器以记录光子数为主。深度相机的硬件则要额外设计光源(结构光、ToF)或双摄同步与高精度时钟(ToF)以及在某些系统中更严格的机械安装精度(立体需要精确的基线和标定)。这意味着深度相机往往在功耗、复杂度和成本上高于单纯的普通相机,虽然基于两个普通相机的立体系统可以在成本上有优势,但对计算和标定提出了更高要求。

深度图通常也是单通道的浮点或整数距离数据,需要与相机内参转换成三维点云或用于后续的感知模块。普通相机的数据更适合直接送入目标检测、语义分割等视觉网络。深度数据和RGB数据各有长处,RGB擅长识别类别和外观,深度擅长提供几何信息,因此在自动驾驶系统里,常见做法是把两者融合,用RGB做识别,用深度做定位与几何推理。

此外,立体视觉在暗光或无纹理时会失效;结构光在强光下会被淹没;ToF在直射阳光或存在强红外光源时噪声会上升。普通相机在宽动态场景下也有挑战,但可以通过曝光控制、HDR等手段改善。总之,不同传感器在不同环境下各有盲区,这正是为什么自动驾驶系统要用相机、雷达、激光雷达等多传感器融合的原因。

深度相机的缺点有哪些

由于深度相机能让机器直接看到三维世界,很多人感觉其可以直接替代激光雷达,但事实并非如此。深度相机的确能带来如立体感知、精准测距、三维建模等很多好处,但它也有不少短板,尤其是在车载这种复杂场景下,更是要各种“妥协”和“取舍”。

图片源自网络

先说最典型的一个问题,那就是距离和精度的矛盾。立体视觉靠的是“视差”原理,简单来说就是两个摄像头看到同一个物体的角度差来计算深度。问题是,距离越远,角度差就越小,计算的误差就越明显。你想要让远处也测得准,就得拉大两个摄像头之间的距离,或者提高图像分辨率。但拉太开安装位置受限,还容易被遮挡;分辨率太高又增加算力负担和成本。ToF(飞行时间)相机在近距离表现不错,但想让它测得远、看得清,就得用更复杂的光源和接收器,功耗、热量、成本全都往上飙。至于结构光,在汽车这种强光、远距离的环境里几乎“吃不开”,更多是短距应用。

还有就是环境光和物体表面的问题。不管是哪种原理的深度相机,本质上都要依赖光线的反射。现实世界里的光照条件可比实验室复杂多了。阳光太强会把信号淹没,雪地的反光能“晃瞎”传感器,金属表面、玻璃、湿滑路面这些都能让测量结果乱成一团。ToF可能会被多次反射的光干扰,导致算出错误的距离;结构光在透明或镜面物体上会出现形变;立体相机在一大片没有纹理的区域,如在光滑车门或者天窗上,根本找不到对应点。更别提下雨、下雪、起雾、夜间灯光这些情况了,都是深度相机的“敌人”。

深度图的分辨率也是一个老大难问题。很多车用深度相机输出的深度图其实挺“糙”的,点比较稀疏,还容易带噪声。相比清晰的RGB图像,深度图往往细节不足,这在识别细小物体或复杂边缘时会出麻烦。虽然可以用算法补全或者把深度和RGB结合来提升效果,但那也意味着要消耗更多算力。

立体视觉需要大量计算来匹配图像,尤其是高分辨率、高帧率的时候,对处理器的压力特别大。ToF虽然直接输出深度信息,但为了让结果更干净,还要做多频信号解码、噪声过滤、多路径校正,这些都比较耗费资源。车载系统的算力和功耗都有限,所以必须在精度、帧率和实时性之间找平衡。

还有一个很现实的问题,那就是标定和稳定性。深度相机其实特别“娇气”,尤其是立体视觉那种。两个摄像头的角度、位置稍微有点偏差,测出来的深度就会跑偏。汽车在行驶过程中会有震动、温度变化、甚至轻微碰撞,这些都会影响标定结果。ToF相机也怕温漂,需要做温度补偿,否则数据会飘。为了保持准确,就得设计坚固的支架、加上定期标定,甚至用算法实时校准。

此外,深度相机还有个天然的限制,它只能“看见”眼前的东西。被挡住的物体,它完全无能为力。比如车旁边的低矮障碍物、角落里的行人,只要被遮挡了,深度相机就测不到,这也是为什么自动驾驶技术上从来不会只靠深度相机。它更像是辅助感知的一环,用来填补其他传感器的空白。

理论上,立体相机用两颗普通镜头就能实现深度感知,看起来挺划算。但要真正上车,事情就变复杂了。你得考虑它的防尘、防水、抗震,还得通过车规认证、EMC测试、热设计验证……这些都要花钱。而且深度相机出来的数据量大,对后端处理单元要求也高,算力芯片、数据传输、冗余设计全都得配齐。ToF和结构光更贵,还涉及主动光源、安全认证等问题。要在整车上集成好,不仅费钱,还费脑。

所以说,深度相机确实有它的厉害之处,但也没那么“完美”。它能提供直观的空间信息,是视觉体系的重要补充,但想让它单独承担自动驾驶的感知任务,还远远不够。真正成熟的方案,都是多传感器融合,让深度相机、雷达、激光雷达、普通相机各司其职,互相补短。只有这样,车辆才能在复杂环境里既“看得清”,又“看得稳”。

什么时候用深度相机,怎样组合其它传感器

在自动驾驶系统设计中,选择深度相机还是其他传感器,取决于任务、场景和成本。近距离低速场景(比如自动泊车、驾驶员监控、车内交互)非常适合ToF或结构光,因为这些场景对短距精度要求高,环境相对可控。需要高分辨率几何信息以做精细定位或障碍物边界判断时,立体视觉搭配高分辨率相机是个划算的选择,但必须配合强大的视差计算和可靠的在线校准。

图片源自网络

对于高速公路或远距感知,激光雷达和毫米波雷达仍然是主力。激光雷达的远距分辨率和精度,以及毫米波雷达对恶劣天气的鲁棒性,都是光学深度相机难以完全替代的。此时深度相机作为几何感知的补充,把RGB相机、深度相机、雷达与激光雷达的数据融合在一起,取各自的强项来覆盖彼此的弱点。比如用深度图快速筛选近距障碍物,用RGB做语义识别,用雷达做速度估计和恶劣天气下的稳定探测,用激光雷达做远距精确定位。深度相机还能降低某些计算负担:在已知深度的区域,很多视觉算法可以避开昂贵的三维重建步骤,直接在深度空间做决策。

当然,还有很多实际细节要考虑,传感器放置位置与视场覆盖、传感器同步与时间戳精度、数据带宽与压缩策略、在线去噪与异常检测、在不同光照/天气下的退化检测与降级策略、以及冗余与故障切换机制。这些都是把深度相机从实验室带到车规产品化时必须解决的问题。

暂无介绍....

延伸阅读:

神似小米YU7!迈凯伦SUV新车渲染图曝光 2028年发布

【CNMO科技消息】近日,一组由海外设计媒体曝光的迈凯伦首款SUV渲染图引发了广泛关注。令人惊讶的是,这款尚未发布的超豪...

娱乐大事件
2025年12月12日
全新奥迪Q5L现已到店 预计年内正式上市

日前,车质网从相关渠道获悉,全新奥迪Q5L(参数丨图片)现已到店,结合此前曝光的消息来看,其有望于年内正式上市。新车基于...

娱乐早知道
2025年12月12日
五菱宏光MINIEV月销突破五万大关 成新能源市场新标杆

【太平洋汽车 行业频道】近日,上汽通用五菱发布了11月的乘用车战报,五菱宏光MINIEV(参数丨图片)(询底价|查参配)...

八卦小灵通
2025年12月12日
全新起亚赛图斯亮相 造型革新 动力全面升级

日前,全新起亚赛图斯官图正式发布。全新起亚赛图斯应用全新的内外设计,外观比现款更加硬朗,动力升级为2.0L和1.6T发动...

娱乐早知道
2025年12月12日
主攻25万级市场 问界M6谍照曝光

近日,车质网从相关渠道获悉,疑似问界M6的测试车谍照已经曝光。此前余承东曾表示,问界未来将补齐“56789”产品矩阵。相...

娱乐早知道
2025年12月12日
🧟 AI 助手