毫末贺翔：DriveGPT让通用感知实现“万物识别”、通用认知具备“世界知识”

　　2024年3月7-8日，焉知汽车电子与软件生态合作科技节在上海举行。毫末智行数据智能科学家贺翔受邀出席并发表了《自动驾驶3.0时代，大模型重塑汽车智能化技术路线》的主题分享，详细讲解了毫末在自动驾驶大模型技术领域的前瞻研究与落地实践。

　　贺翔认为，AI大模型技术是自动驾驶真正实现的唯一路径。毫末率先发布了行业首个自动驾驶生成式大模型DriveGPT雪湖·海若之后，始终在坚定投入大模型技术的研发创新，在数据的筛选挖掘、自动标注、生成仿真以及认知可解释性等方面实现了显著的突破和创新。

　　汽车正在经历着百年未遇之大变革，新科技、新材料、新工艺等新科技浪潮正驱动着汽车产业的转型升级。本次科技节的主题聚焦汽车电子与软件生态的合作与发展，旨在推动汽车电子和软件技术的创新与应用，加强产业链上下游企业间的交流与合作。在为期两天的会议中，与会者围绕智驾感知与域控、座舱IMS、智能底盘、网络安全与数据安全、城区NOA、AI大模型等议题展开了深入探讨。

　　演讲中，贺翔分享了当下国内智驾市场的现状，他表示，“2024是智驾市场爆发元年”。当下，乘用车市场正经历智能驾驶技术的渗透率不断提高，但其价格却呈现出与之相反的下降趋势，预计到2025年，市场上L2及以上级别的智能驾驶渗透率将达到70%，并普及到10-20万的主销车型上；此外，城市NOA（导航辅助驾驶）技术也即将迎来大规模的商业化应用。在硬件设计方面，随着技术的进步和市场的演变，行泊分体的设计将逐步退出历史舞台，而更具成本效益和性能优势的行泊一体域控方案将逐渐成为市场的主流选择。

　　截至2024年2月，毫末乘用车智能驾驶产品HPilot搭载车辆超过20款，用户辅助驾驶行驶里程突破1.3亿公里，小魔驼已经累计配送近30万单。这也使得毫末率先走进以大数据、大模型为特征，以数据驱动为开发模式的自动驾驶3.0时代。

　　贺翔解释，相比2.0时代的传统模块化框架，自动驾驶3.0时代将带来颠覆性变革。云端将实现感知大模型和认知大模型的能力突破，车端小模型将统一并实现AI模型化控制。智驾系统逐步全链路和大模型化，云端大模型将提升车端感知能力，实现远程控车，最终形成端到端的自动驾驶大模型，引领未来发展。

　　在感知阶段，DriveGPT首先通过构建视觉感知大模型来实现对真实物理世界的学习，学习并建模真实世界至三维空间，结合时序形成4D向量空间。基于此，毫末引入图文多模态大模型，构建更通用的语义感知模型，整合文、图、视频信息，对齐4D空间与语义空间，实现类似人类的“识别万物”能力。

　　在认知阶段，基于通用语义感知大模型提供的“万物识别”能力，DriveGPT通过构建驾驶语言（Drive Language）来描述驾驶环境和驾驶意图，再结合导航引导信息以及自车历史动作，借助外部大语言模型LLM的海量知识来辅助给出驾驶决策。

　　由于大语言模型已经学习到并压缩了人类社会的全部知识，因而也就包含了驾驶相关的知识。毫末经过对大语言模型的专门训练和微调，从而让大语言模型更好地适配自动驾驶任务，使得大语言模型能真正看懂驾驶环境、解释驾驶行为、做出驾驶决策。认知大模型通过与大语言模型结合，使得自动驾驶认知决策获得了人类社会的常识和推理能力，也就是获得了世界知识，从而提升自动驾驶策略的可解释性和泛化性。