放眼1亿公里的自动驾驶3.0时代，毫末智行这样搭建数据闭环|无人驾驶|数据库

　　2022年行至年终，就在外界纷纷惊呼自动驾驶步入寒冬的时候，中国自动驾驶行业实则是迎来了新前景。

　　首先是自动驾驶路线之争的结束。跨越式路线主动将L4技术释放到辅助驾驶赛道，以实现大规模的数据积累，渐进式路线则继续以量产乘用车为载体，获得规模数据优势，加速布局城市辅助驾驶场景。

　　国外头部玩家特斯拉，国内新势力代表的蔚小理，国内本土自动驾驶公司毫末智行、华为等更成为主机厂迈入量产智能驾驶的代表。

　　就在这个时间点上，毫末智行率先喊出了“自动驾驶3.0时代”的观点。

　　自动驾驶3.0时代是相较于之前的硬件驱动的1.0和当下的软件驱动的2.0时代，就是在突破软硬件时代的技术禁锢后，进入到以数据驱动为代表，采用大数据、大模型，标志性特点就是智能驾驶行驶里程要达到1亿公里，感知以多模态传感器联合输出结果，认知以可解释的场景化驾驶常识。

　　3.0时代的标志，可以用“大数据+大模型+大算力”概括。从这时开始，自动驾驶获取的数据量与数据多样性将呈现指数级膨胀，而云端大模型的作用也将由此得到更进一步显现。在深度学习主导中，大数据与大模型相辅相成，真正去解决自动驾驶最后的长尾难题。

　　那么问题来了，自动驾驶公司如何适应3.0时代的挑战，如何实现数据驱动自动驾驶技术的迭代升级?

　　毫末智行在这里不仅提出了问题，也同样给出了答案。下面我们就看下毫末在数据智能上的一些思考。

　　如同早晚高峰时段拥堵的通勤道路一样，最难的并不是道路能够容纳多少车辆，而是如何能够快速疏解车辆。对于数据来说，如何提升数据处理效率已经越发重要，尤其在面对3.0时代的1亿公里自动驾驶场景数据时，以当前的数据标注、训练及仿真能力根本无力应对如此规模的数据。

　　想要建立数据闭环、实现量产辅助驾驶向自动驾驶得更快速度迭代，首先就必须得掌握足够强大的数据处理能力。考虑到人工及自动标注&训练的提升空间终究是有限的，毫末智行提出了迎接自动驾驶3.0时代的总体策略：在尽可能提升传统数据处理能力的基础上，采用更高效的方式，充分发挥出毫末智行数据规模的优势。

　　一、自监督学习，解决数据标注效率难题

　　在这之中，第一个问题就是如何解放标注能力。在传统数据处理过程中，由终端获取的数据首先要通过人工或自动标注，才会被运用到接下来的感知结果输出或算法模型训练中。

　　在这一模式下，数据处理效率首先就将被标注效率所控制，而增加人工、自动标注效率的方法是有限的，这不仅会大幅增加标注成本，最终也还是无法满足1亿公里后的海量数据。

　　对此，毫末智行决定引入无标注的自监督学习。这一模式的主要逻辑是，以引入大模型的方式统一所有感知任务的backbone，再使用以无标注数据为主的数据进行预训练，使其获得能够使用无标注数据训练的能力，而少量经过标注的数据也会参与到这一过程中，对大模型的剩余部分进行训练。

　　这样做的效果是显而易见的，首先是成功扩大了大模型在自动驾驶中的使用范围，其次则是在这一基础上实现了无数据标注的自监督学习。毫末智行介绍到，由此能够更有效迫使模型理解道路场景的三维结构，从而更好地适应自动驾驶的各种感知任务需求，且训练效率与精度也有了显著提升。

　　二、增量式学习，加速新数据训练进程

　　第二个问题是，如何让数据库始终对新数据保持敏感度。在突破1亿公里后，毫末智行的数据库将膨胀到前所未有的规模，而此时如果从终端获取到了重要的corner case数据，则可能出现两个隐患：

　　第一个隐患是，由于体量差距悬殊，新数据在加入数据库的一瞬间，可能会被立刻稀释掉，导致算法模型无法从corner case数据中得到应有的训练效果;第二个隐患则是，训练整个数据库的成本过高，既占用算力，又消耗时间，算是一种“笨办法”。

　　为此，毫末智行选择引入增量式学习训练平台，这一方法的逻辑是，从数据库中抽取出一小部分，再结合新数据进行训练。在这一过程中，带有新数据的数据集训练结果将会与旧数据的数据库保持一致，由此既带来了同样的训练结果，又提升了训练效率。

　　三、真实场景仿真，让训练效果更逼真

　　前两个问题旨在提升训练效率，第三个问题则在于如何提升训练效果。通过仿真系统进行训练已经成为了自动驾驶企业验证算法、加速迭代的重要途径，但仿真世界是否逼真，能够仿真多少真实的复杂场景，也会对训练起到决定性影响。

　　对此，毫末智行选择与阿里和德清政府合作，通过向仿真系统中引入真实的交通流，提升仿真系统的仿真能力。经过更多样、更真实的仿真系统训练，得到的算法模型在安全性、舒适性与高效性方面自然也更有保障。

　　四、时序Transformer提供实时场景建模能力

　　第四个问题也是特斯拉、毫末智行、小鹏选择“重感知”的重要原因，因为在大模型得到广泛运用前，自动驾驶的算法模型多为独立制作的小模型，这些小模型不仅效率低下，彼此也缺乏通用性，很难作为整体进行协同高效的运行。

　　Transformer大模型的到来，改变了这一现状。相较小模型，Transformer对数据量有着极高的饱和区间，并且具备并行计算的能力，这使得其能够带来更高效的训练效率，并且数据量越大，效率越高。

　　另一方面，如果首先使用大数据对Transformer进行预训练，再基于验证后的大模型去训练其它模型，此前通用性过低的问题也将随之化解，因为所有的模型都“师出同门”。

　　除了以上这两点，Transformer的优势还有很多，例如在具备并行能力的基础上，还兼顾不错的时序预测能力，这使其能够在诸如车道线中断、重合、消失的情况下还能建立拓扑关系，以保持自动驾驶;此外，即使摄像头视线因障碍物、极端天气导致被遮挡，Transformer也能给予更高的鲁棒性与泛化性，提升自动驾驶的稳定性。

　　具体到毫末智行，其解决方案就是使用Transformer建立强感知的时空理解能力。通过在BEV空间上做虚拟实时建图，让诸如感知车道线这样的项目输出更加准确和稳定，与此同时对障碍物的判断也能更准确。

　　最终，毫末智行不仅借助Transformer大模型建立起了带有时序特征的3D感知空间，还实现了对多摄像头图像的更真实融合，并由此提高了车道线识别与红绿灯绑路能力，“重感知”路线也得以像顺水推舟一样，在这一系列的提升中得到了实现。

　　五、感知交互更丰富，运动决策更像人

　　最后两个问题建立在前四个问题带来的解决方案上，也是大众最终评判自动驾驶效果的关键，即如何让自动驾驶表现得更加拟人化。和人类驾驶的思维逻辑不同，自动驾驶对人类世界的交互窗口并不感冒，比如前车的刹车灯和转向灯，如果不参考这些数据，其输出的规控策略很难说足够拟人。

　　此外，人类的驾驶过程是连续的，场景与决策也是实时且多样的，而自动驾驶负责输出规控策略的模型却是分场景的，彼此之间衔接差异很大，这显然也不符合人类驾驶的逻辑，其结果也必然像是缝合怪一样，让驾驶者和乘客难以接受。

　　这两个问题的答案，同样来自大模型。在此之前，毫末智行已经实现了对红绿灯的识别，而在之后，则会加强对车灯在内的更多人类交互窗口的识别;此外，使用大模型来逐步取代小模型，也能够统一自动驾驶输出的规控策略风格，由此逐步化解长尾难题。

　　经过对数据标注、训练、仿真能力的提升，毫末智行为1亿公里后的海量数据提供了一套能力匹配的数据处理系统，由此实现数据闭环的搭建;而在此之后，毫末智行的认知能力也将得到不断提升，由corner case数据带来的长尾难题也将被逐步化解，直到彻底消失。到那时，毫末智行也将彻底完成从量产辅助驾驶到完全自动驾驶的质变。

　　此外，毫末智行也一直在进行云端超算中心的搭建，这将为其更快进入自动驾驶3.0时代，建立“大数据+大模型+大算力”的组合提供算力支撑。

　　毫末智行从成立起，就确立了基于量产乘用车辅助驾驶产品、以数据智能为核心的自动驾驶发展路线，这使其能够在层层竞争中突围，成为仅次于特斯拉的渐进式头部自动驾驶企业。除此之外，毫末智行也始终在坚定执行这一发展路线，这又使其能够不断深研重感知的高阶辅助驾驶技术，为自动驾驶行业发展提供借鉴。

　　当前，特斯拉、毫末智行、小鹏、华为等自动驾驶代表玩家在“重感知”路线达成共识，由渐进式路线所引导的数据驱动已成趋势。想必未来更多自动驾驶企业也把数据闭环当做核心任务，加速从2.0时代跃迁到硕果丰收的3.0时代。

　　(来源：新视线)

责任编辑：孙青扬

关键字 : 无人驾驶数据库

我要反馈