魔法新闻

清华校友研究再登 Nature:3 种方法解决自动驾驶“稀疏度灾难”

清华校友,自动驾驶最新研究成果再次发表在《自然》杂志上。

清华校友研究再登 Nature:3 种方法解决自动驾驶“稀疏度灾难”

去年《自然》杂志罕见地给了自动驾驶研究“仿真效率提升2000倍”的封面——同样是这个团队的成果,成为自动驾驶圈的一大进步。

这项新研究发表在《自然通讯》(Nature Communications)上,主要关注更基础、更核心的AI技术问题:稀疏性灾难。

研究了个啥?

有点“匪夷所思”。什么是稀疏,为什么是自动驾驶的灾难?

严格的定义是这样的:

通俗地说,真正对AI司机有用的训练数据并不多。

比如现在车企和自动驾驶公司经常说自己实测里程数亿公里,或者模拟测试里程数超过1亿,但都回避了关键问题:

这些数据中,有多少真正提升了系统能力?

比如自动驾驶在笔直的无车高速公路上测试一百万公里,可能还不如在城市里遇到一个“鬼探头”伟大。

关键场景在业内常被称为“长尾场景”。

目前一般有两种解决方案。一种是下大力气创造奇迹,开尽可能多的车,跑尽可能多的路,期望最大程度覆盖各种罕见的交通状况,让自动驾驶能力从量变积累到质变。

其实包括现在已经成为业界共识的端到端技术体系,本质上还是用这个思路来解决问题,只是把整个自动驾驶过程中更多环节的权限交给了AI。

另一种方式是在有限的计算能力和参数下,给自动驾驶仪装上“安全壳”,极端情况下通过降级或刹车的方式进行覆盖。这是目前量产最多的智能驾驶方式,但缺点也很明显:系统决策僵化,通用性差,体验更差。

不知道大家有没有发现,不管是哪种方式,都没有在AI算法的层面上分析“稀疏”的本质,自然也就无法提出有针对性的解决方案。

作者在论文开头就直接指出了这个问题:

因此,“稀疏”被称为“自动驾驶的灾难”。

解决稀疏性灾难的新研究方法是打开AI黑箱,尝试用数学的方式表达稀疏性的本质,并提出三种相应的解决方案。

怎么办到的

具体来说,笔者认为传统上看重的安全关键事件的概率分布并不是核心。

相反,真正的挑战在于如何在高度复杂的场景中定义安全关键情况的罕见性,例如不同的天气条件、不同的道路基础设施和道路使用者的不同行为……

这些安全危急情况可能由于各种原因而发生,例如对未知物体的错误识别或对附近行人轨迹的错误预测...这种事件发生的概率非常低,大多数可用的数据只包含很少的关于罕见事件的信息。

由于罕见事件的有价值信息可能被大量的常态数据所掩盖,深度学习模型很难有效学习这些安全关键事件。

重点来了。深度学习的本质是针对特定分布的数据,通过优化目标函数的期望来获得神经网络的最优参数。

为了解决这个优化问题,最常用的方法是基于梯度下降法,在每个训练步骤中使用一批数据,通过蒙特卡罗估计来估计梯度。

然而,随着安全关键事件的日益稀少,估计方差将呈指数级增长,从而导致“稀疏灾难”。

有三种解决方案。

首先是利用更多的稀有事件数据进行有效的训练。

这种方法以数据为中心,利用与罕见事件相关的数据,不断提高系统能力。但是定义和识别罕见事件并不是那么简单。因为它们依赖于特定问题的目标函数,并且受到安全关键事件的时间空复杂性的影响。更重要的是,目前学术界还缺乏指导使用稀有事件数据的理论依据。

对于这样的安全验证任务,团队尝试用强化深度强化学习(D2RL)(即《自然》封面的研究)来解决。实验结果表明,D2RL能显著降低策略梯度估计的方差,是解决CoR的重要一步。

二是提高机器学习模型的泛化和推理能力。实际上,作者在这里讨论的是AGI的问题。目前自动驾驶领域最先进的尝试是端到端的模式。

人类可以在有限的经验(通常不到100小时的训练)下学习驾驶,因此未来的AI有可能在不依赖大量特定任务数据的情况下克服CoR。这就要求AI既要有自下而上的推理(感知数据驱动),又要有自上而下的推理(认知预期驱动)。

我们可以参考大语言模型(LLM)和视觉语言模型(VLM)的方案。它们的基本模型通过采用全监督微调、情境学习和思维链等技术,表现出了优秀的泛化和推理能力。

第三种方法是通过减少安全关键事件的发生来降低CoR对整个系统的影响。

说白了就是尽量减少系统对场景和目标的误检。具体方法有很多,比如将传统深度学习模型与强化学习相结合,训练AI的“预防性驾驶”能力,车路协同多传感器融合,车云融合方案等等。

CoR问题的三种可能的解决方案,从不同的角度出发。但作者强调,这些方法并不互相排斥,结合起来有很大的潜力。

有什么意义?

COR的影响并不局限于感知环节,而是渗透在自动驾驶的所有过程中,一步步积累。一旦出现概率极低的安全危急情况,可能会造成非常严重的后果。

比如单帧中的一个物体分类错误可能问题不大,而一系列片段中的多个物体分类错误可能会导致严重的误识别和误判。这类事件发生的概率远低于任何单一错误,因此CoR问题变得更加严重。

在轨迹预测层面,一个很小的预测误差都可能导致误报或虚警,导致驾驶决策过于谨慎或决策过于自信,从而导致事故的发生。因此,行为预测模型必须有效地处理容易发生CoR的罕见事件。

在决策过程中,过去由于真实世界数据的缺乏和偶然性,深度学习模型容易受到CoR的影响,可能导致战略梯度估计出现严重分歧。

自然,由于CoR的存在,理论上评估自动驾驶的安全性能需要上亿英里,这是不现实且低效的,这也是模拟测试成为主流的原因。但问题是,现有的很多方法仅仅局限于处理目标有限的短场景,无法捕捉真实世界安全中关键事件的所有复杂性和多变性。

所以,CoR不是看得见摸得着的bug,而是危害深深渗透到自动驾驶的每一个环节。

这项新研究的最大意义在于解释了CoR的数学本质,并提出了几种可能的解决方案。

作者团队介绍

这项研究由密歇根大学和清华大学的研究人员完成。

刘博士,第一本书及通讯作者,现任密歇根大学讲座教授,Mcity(由密歇根大学牵头的智能交通模拟城市项目)主任。

他在国内最熟悉的身份是滴滴前首席科学家。

刘1993年毕业于清华大学汽车工程系,获学士学位,2000年获美国威斯康星大学麦迪逊分校博士学位。

刘教授是流量工程领域被引用最多的学者之一。他发明的用于精确测量十字路口排队长度和行驶时间的智能信号系统于2012年在美国获得国家专利,并在明尼苏达州和加利福尼亚州得到广泛应用。

本文合著者、通讯记者,现为清华自动化系助理教授,曾在刘教授交通实验室担任博士后、研究员。

冯硕的本科和博士学位均获得于清华大学自动化系。他的研究方向是优化控制、互联和自动驾驶评估以及交通数据分析。

从教授和刘教授团队过去发表的成果和研究方向来看,他们一直在不断推动自动驾驶安全验证评估和模拟测试的优化升级。

比如我们之前报道的D2RL,就是通过强化学习的方式,有针对性地生成高价值数据,提高仿真测试的效率。

有意思的是,无论是自动驾驶、从工程实践出发的智能汽车产业,还是大学学者从数学原理层面抽象总结,都指向了AGI的路径,端到端,数据驱动。

那么端到端将是自动驾驶的最优解,还是自动驾驶的“历史终结”?

分享:
扫描分享到社交APP
上一篇
下一篇