2022年行至年终,就在外界纷纷惊呼自动驾驶步入寒冬的时候,中国自动驾驶行业实则是迎来了新前景。
首先是自动驾驶路线之争的结束。跨越式路线主动将L4技术释放到辅助驾驶赛道,以实现大规模的数据积累,渐进式路线则继续以量产乘用车为载体,获得规模数据优势,加速布局城市辅助驾驶场景。
国外头部玩家特斯拉,国内新势力代表的蔚小理,国内本土自动驾驶公司毫末智行、华为等更成为主机厂迈入量产智能驾驶的代表。
就在这个时间点上,毫末智行率先喊出了“自动驾驶3.0时代”的观点。
自动驾驶3.0时代是相较于之前的硬件驱动的1.0和当下的软件驱动的2.0时代,就是在突破软硬件时代的技术禁锢后,进入到以数据驱动为代表,采用大数据、大模型,标志性特点就是智能驾驶行驶里程要达到1亿公里,感知以多模态传感器联合输出结果,认知以可解释的场景化驾驶常识。
3.0时代的标志,可以用“大数据+大模型+大算力”概括。从这时开始,自动驾驶获取的数据量与数据多样性将呈现指数级膨胀,而云端大模型的作用也将由此得到更进一步显现。在深度学习主导中,大数据与大模型相辅相成,真正去解决自动驾驶最后的长尾难题。
那么问题来了,自动驾驶公司如何适应3.0时代的挑战,如何实现数据驱动自动驾驶技术的迭代升级?
毫末智行在这里不仅提出了问题,也同样给出了答案。下面我们就看下毫末在数据智能上的一些思考。
如同早晚高峰时段拥堵的通勤道路一样,最难的并不是道路能够容纳多少车辆,而是如何能够快速疏解车辆。对于数据来说,如何提升数据处理效率已经越发重要,尤其在面对3.0时代的1亿公里自动驾驶场景数据时,以当前的数据标注、训练及仿真能力根本无力应对如此规模的数据。
想要建立数据闭环、实现量产辅助驾驶向自动驾驶得更快速度迭代,首先就必须得掌握足够强大的数据处理能力。考虑到人工及自动标注&训练的提升空间终究是有限的,毫末智行提出了迎接自动驾驶3.0时代的总体策略:在尽可能提升传统数据处理能力的基础上,采用更高效的方式,充分发挥出毫末智行数据规模的优势。
一、自监督学习,解决数据标注效率难题
在这之中,第一个问题就是如何解放标注能力。在传统数据处理过程中,由终端获取的数据首先要通过人工或自动标注,才会被运用到接下来的感知结果输出或算法模型训练中。
在这一模式下,数据处理效率首先就将被标注效率所控制,而增加人工、自动标注效率的方法是有限的,这不仅会大幅增加标注成本,最终也还是无法满足1亿公里后的海量数据。
对此,毫末智行决定引入无标注的自监督学习。这一模式的主要逻辑是,以引入大模型的方式统一所有感知任务的backbone,再使用以无标注数据为主的数据进行预训练,使其获得能够使用无标注数据训练的能力,而少量经过标注的数据也会参与到这一过程中,对大模型的剩余部分进行训练。
这样做的效果是显而易见的,首先是成功扩大了大模型在自动驾驶中的使用范围,其次则是在这一基础上实现了无数据标注的自监督学习。毫末智行介绍到,由此能够更有效迫使模型理解道路场景的三维结构,从而更好地适应自动驾驶的各种感知任务需求,且训练效率与精度也有了显著提升。
二、增量式学习,加速新数据训练进程
第二个问题是,如何让数据库始终对新数据保持敏感度。在突破1亿公里后,毫末智行的数据库将膨胀到前所未有的规模,而此时如果从终端获取到了重要的corner case数据,则可能出现两个隐患:
第一个隐患是,由于体量差距悬殊,新数据在加入数据库的一瞬间,可能会被立刻稀释掉,导致算法模型无法从corner case数据中得到应有的训练效果;第二个隐患则是,训练整个数据库的成本过高,既占用算力,又消耗时间,算是一种“笨办法”。
为此,毫末智行选择引入增量式学习训练平台,这一方法的逻辑是,从数据库中抽取出一小部分,再结合新数据进行训练。在这一过程中,带有新数据的数据集训练结果将会与旧数据的数据库保持一致,由此既带来了同样的训练结果,又提升了训练效率。
三、真实场景仿真,让训练效果更逼真
前两个问题旨在提升训练效率,第三个问题则在于如何提升训练效果。通过仿真系统进行训练已经成为了自动驾驶企业验证算法、加速迭代的重要途径,但仿真世界是否逼真,能够仿真多少真实的复杂场景,也会对训练起到决定性影响。
对此,毫末智行选择与阿里和德清政府合作,通过向仿真系统中引入真实的交通流,提升仿真系统的仿真能力。经过更多样、更真实的仿真系统训练,得到的算法模型在安全性、舒适性与高效性方面自然也更有保障。
四、时序Transformer提供实时场景建模能力
第四个问题也是特斯拉、毫末智行、小鹏选择“重感知”的重要原因,因为在大模型得到广泛运用前,自动驾驶的算法模型多为独立制作的小模型,这些小模型不仅效率低下,彼此也缺乏通用性,很难作为整体进行协同高效的运行。
Transformer大模型的到来,改变了这一现状。相较小模型,Transformer对数据量有着极高的饱和区间,并且具备并行计算的能力,这使得其能够带来更高效的训练效率,并且数据量越大,效率越高。
另一方面,如果首先使用大数据对Transformer进行预训练,再基于验证后的大模型去训练其它模型,此前通用性过低的问题也将随之化解,因为所有的模型都“师出同门”。
除了以上这两点,Transformer的优势还有很多,例如在具备并行能力的基础上,还兼顾不错的时序预测能力,这使其能够在诸如车道线中断、重合、消失的情况下还能建立拓扑关系,以保持自动驾驶;此外,即使摄像头视线因障碍物、极端天气导致被遮挡,Transformer也能给予更高的鲁棒性与泛化性,提升自动驾驶的稳定性。
具体到毫末智行,其解决方案就是使用Transformer建立强感知的时空理解能力。通过在BEV空间上做虚拟实时建图,让诸如感知车道线这样的项目输出更加准确和稳定,与此同时对障碍物的判断也能更准确。
最终,毫末智行不仅借助Transformer大模型建立起了带有时序特征的3D感知空间,还实现了对多摄像头图像的更真实融合,并由此提高了车道线识别与红绿灯绑路能力,“重感知”路线也得以像顺水推舟一样,在这一系列的提升中得到了实现。
五、感知交互更丰富,运动决策更像人
最后两个问题建立在前四个问题带来的解决方案上,也是大众最终评判自动驾驶效果的关键,即如何让自动驾驶表现得更加拟人化。和人类驾驶的思维逻辑不同,自动驾驶对人类世界的交互窗口并不感冒,比如前车的刹车灯和转向灯,如果不参考这些数据,其输出的规控策略很难说足够拟人。
此外,人类的驾驶过程是连续的,场景与决策也是实时且多样的,而自动驾驶负责输出规控策略的模型却是分场景的,彼此之间衔接差异很大,这显然也不符合人类驾驶的逻辑,其结果也必然像是缝合怪一样,让驾驶者和乘客难以接受。
这两个问题的答案,同样来自大模型。在此之前,毫末智行已经实现了对红绿灯的识别,而在之后,则会加强对车灯在内的更多人类交互窗口的识别;此外,使用大模型来逐步取代小模型,也能够统一自动驾驶输出的规控策略风格,由此逐步化解长尾难题。
经过对数据标注、训练、仿真能力的提升,毫末智行为1亿公里后的海量数据提供了一套能力匹配的数据处理系统,由此实现数据闭环的搭建;而在此之后,毫末智行的认知能力也将得到不断提升,由corner case数据带来的长尾难题也将被逐步化解,直到彻底消失。到那时,毫末智行也将彻底完成从量产辅助驾驶到完全自动驾驶的质变。
此外,毫末智行也一直在进行云端超算中心的搭建,这将为其更快进入自动驾驶3.0时代,建立“大数据+大模型+大算力”的组合提供算力支撑。
毫末智行从成立起,就确立了基于量产乘用车辅助驾驶产品、以数据智能为核心的自动驾驶发展路线,这使其能够在层层竞争中突围,成为仅次于特斯拉的渐进式头部自动驾驶企业。除此之外,毫末智行也始终在坚定执行这一发展路线,这又使其能够不断深研重感知的高阶辅助驾驶技术,为自动驾驶行业发展提供借鉴。
当前,特斯拉、毫末智行、小鹏、华为等自动驾驶代表玩家在“重感知”路线达成共识,由渐进式路线所引导的数据驱动已成趋势。想必未来更多自动驾驶企业也把数据闭环当做核心任务,加速从2.0时代跃迁到硕果丰收的3.0时代。
(来源:新视线)