新浪新闻客户端

从特斯拉到毫末 为何都钟情智算中心?

从特斯拉到毫末 为何都钟情智算中心?
2023年03月08日 15:48

  赶在3月之前,吉利星睿智算中心终于在浙江湖州长兴正式揭牌。媒体将它描述成“吉利有史以来设施规模最大、最复杂的信息化战略项目”,足见其重要程度。事实上,自动驾驶的产品迭代,需要大量数据反馈从而对系统持续优化。正因如此,智算中心也成为数据、算法、算力这人工智能三驾马车的推进器,逐渐成为各路玩家布局自动驾驶的“新基建”。

  在国内,除了吉利的星睿智算中心外,2023年新年伊始,毫末智行正式发布了目前中国自动驾驶行业最大智算中心雪湖·绿洲(MANA OASIS),小鹏汽车在乌兰察布也拥有自己的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。

  与之对应的,则是各家紧锣密鼓地推进城市导航辅助驾驶:中国第一个可大规模量产的城市导航辅助驾驶产品毫末城市NOH目前软件封版达到交付状态、吉利博越L搭载了NOA高阶智驾领航系统、小鹏在广州正式推送城市NGP……西部证券预测,2023~2025年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。种种迹象表明,城市导航辅助未来将成为汽车消费的主流需求。

  看得见的是自动驾驶迅速发展,从高速逐渐蔓延到城区;看不见的是AI新基建——能支撑自动驾驶快速进化迭代的、以云计算、大数据、人工智能为核心的智算中心。

  智算中心:大算力还要与自动驾驶业务深度融合

  AI大模型的运用大幅提升了算法的迭代速度,直接缩短了自动驾驶系统的迭代周期。为匹配模型中大规模参数以及大数据量计算,部分主机厂及自动驾驶技术开发商纷纷开始建设能够提供大算力和训练大模型的智算中心。最早开始智算中心部署的是特斯拉,2021年,特斯拉发布了自研的神经网络训练芯片。2022 AI DAY上,马斯克不仅公布了超算Dojo D1芯片的最新进展,还表示将于2023年一季度完成超级计算机群组ExaPOD的部署。

  特斯拉敢为人先,离不开它的AI基因。自动驾驶、或者说智能汽车上的核心功能,其实都是AI。具体说,是大规模的深度学习算法。对于这类模型的训练和测试,靠的不是CPU,而是以AI加速器为主的浮点计算能力,所以智算中心特征就是以大规模GPU算力作为AI模型迭代的基础。

  毫末的MANA OASIS,其每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。小鹏扶摇智算中心在阿里云智能计算平台的加持下,算力也能达到每秒浮点运算60亿亿次。

  当然,光有算力是不够的。自动驾驶玩家之所以纷纷自建智算中心,一个很重要的原因是与自动驾驶业务深度结合,智算中心提供了针对自动驾驶应用特征的算力集群、性能加速工具和AI大数据平台,使得模型训练性能、GPU资源利用率和算法研发效能都大大提升。

  自动驾驶任务训练的特点,是文件比较多较杂,而且多为视频、图像数据。自动驾驶的用户每一次接管,都会形成一个独立的小文件。车多用户多,就形成了自动驾驶数量超过百亿的数据集。同样以毫末为例,MANA OASIS的算力几乎全部为自动驾驶服务。其架构也根据自动驾驶的业务特征做了专门安排。在数据管理能力方面,毫末建立了全套面向大规模训练的Data Engine,实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒。在算力优化方面,毫末与火山引擎合作,部署了Lego高性能算子库、ByteCCL 通信优化能力,以及大模型训练框架。软硬一体,把算力优化到极致。

  数据是智能化发展最大的驱动力,也占据了大量成本构成。如果数据量上升到一定规模,自建数据中心带来的成本优化效益将相当可观。资料显示,MANA OASIS基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。

  更重要的是,在MANA OASIS的加持下,毫末MANA五大模型全新亮相升级,助力毫末自动驾驶高速发展。在MANA五大模型中,视觉自监督大模型可完成4D clip的自动标注;多模态互监督大模型可完成通用障碍物的识别;3D重建大模型能帮助数据生成,用更低成本解决数据分布问题,提升感知效果;动态环境大模型能进一步使用重感知技术,降低对高精地图依赖;人驾自监督认知大模型让毫末的驾驶策略更加拟人化,安全及顺畅。

  得智算中心未必得天下 但没有智算中心恐被市场抛弃

  2022年国务院出台《“十四五”数字经济发展规划》提出推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施。今年1月,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。根据这一报告,2017~2022年以来,我国超30城快速布局智算中心。算力和算法基建化,为当下数字经济和实体经济的加速融合,提供了一种保障。

  自动驾驶技术的发展进程中,算力的确是驱动自动驾驶开发效率及产品快速落地的关键。在自动驾驶领域具有长期规划的车企或技术供应商,如果做好算力长期规划,结合考虑硬件、网络、软件及服务等因素搭建适合自己的智算中心,就能缩短研发时间,降低成本和风险,加速产品落地。MANA OASIS的核任务就只有一个:加速大模型训练。MANA OASIS的基本架构特征和毫末之前一直展现出的技术路线完全吻合:以超大模型、超大数据,快速迭代为基础的自动驾驶研发。

  2023年2月,毫末还将人驾自监督认知大模型正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。这些背后,都离不开智算中心的算力加持。

  而效果也显而易见:作为中国量产自动驾驶第一名,截至2023年1月,毫末用户辅助驾驶行驶里程突破3500万公里,HPilot已迭代三代产品,在魏牌、坦克、哈弗、欧拉、长城炮等多个品牌近20款车型上实现了规模化量产。

  接下来,毫末规划预计到2024年上半年,毫末城市NOH落地将达到100城,以重感知、大模型的技术路线及技术应用、用户闭环的数据建设等方向保持领先位置,2025年毫末HPilot全面进入全无人驾驶时代。这跟同样拥有智算中心的小鹏规划基本一致。小鹏透露,2023年,XNGP将抛弃高精地图,覆盖中国50—100个城市。2024年,小鹏会将点对点的全场景打通,将城市范围提高到超过100个,将 XNGP智能化成本降低到当前的1/3左右。

  其他家亦是如此,依靠着智算中心不断降本增效:特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;吉利星睿智算中心结合领先的算力调度管理算法和研发体系,将让吉利的整体研发效能取得20%的提升;蔚来智能计算中心,将推理速度提高至6倍,并节省了24%的资源,模型开发效率提升了20倍。

  经历2022年行业竞速后,量产智能驾驶“进城”争夺战已经打响,而决定城市辅助驾驶落地、体验和发展速度的关键保障,就是智算中心。

  当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的智算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有智算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。

  (来源:新视线)

责任编辑:孙青扬

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2023 SINA Corporation

All Rights Reserved 新浪公司 版权所有