新浪新闻客户端

AI数据标注迈入自动化时代,合成数据平台成为数据行业发展的领头羊

AI数据标注迈入自动化时代,合成数据平台成为数据行业发展的领头羊
2024年01月18日 16:16

  合成数据标注已经掀起了整个智能产业界新风向。而在全球汽车产业,合成数据的技术优势也将远超传统数据标注。

  一是以BEV为代表的感知技术,输出的空间从2D透视图像转换到了3D空间+时序维度,4D标注应运而生;二是4D标注借助点云级别或object级别的重建,通过人工标注积累原始数据,再投喂训练云端大模型逐步替换人工标注,可实现标注效率提升80%以上。

  叠加特斯拉的数据闭环方案、自动驾驶往更高阶能力发展等因素,车企对数据标注提出了更高要求,比如数据标注准确率需达到99%以上、服务商要配备专门的自动化标注平台和标注工具等。

  这也意味着“高质高效”成为了数据标注赛道竞争焦点,行业技术门槛进一步提升。

  一方面,智能驾驶技术的迭代,依赖算法的持续优化,进而取决于数据养料的质量。尤其是智能驾驶感知方案及计算平台的趋同化下,高质量数据俨然成为主机厂和各智能驾驶方案商重点建设的护城河。

  另一方面,传统人工标注在效率和成本方面,已经难以满足模型训练对海量数据集的需求,由此驱动数据标注行业逐渐向自动化数据标注看齐,一场市场淘汰赛也已经打响。而缺乏技术竞争优势的纯人力数据标注公司,以及难支撑量产车数据标注体量的玩家或率先出局。

  “汽车市场的数据标注需求不断变化和增加,包括从常规场景走向长尾场景,数据复杂度也在不断提升(从2D、3D到4D要求),对标注准确度的要求达到了99.9%,长期来看将体现在对数据供应商的长期合作能力要求。”Snorkel AI市场总监Jeff Wamester表示。

  自2021年起,自动驾驶成为全球数据标注服务商眼里的热门业务场景,不同传感器、不同车型、不同特殊情况的数据标注需求源源不断,将数据标注赛道推向了蓝海。

  从行业需求来看,数据标注主要是根据车企和智能驾驶方案商的要求,对语音、点云、图像、视频等数据对象进行不同方式的标注,从而为算法迭代提供大量的训练数据。

  不过,随着自动驾驶等级的提升,激光雷达、摄像头、4D成像雷达等传感器的规模化应用,以及高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶数据标注的量级呈指数型上升,纯人工标注难以应对100k、1000k甚至更大规模的数据标注。

  据介绍,Snorkel AI将数据标注平台根据智能化及自动化水平,分为L0纯人工数据采集与标注、L1简单数据预处理、L2智能交互、L3半自动标注、L4全自动标注5个阶段。目前行业普遍处于L1或L2阶段,即通过批量处理的预标注结果作为原始的输入或通过简单的人机交互提升标注效率。

  然而通用的预标注模型解决的问题通常是有限的,无法覆盖真实项目中定制化的需求,而L2阶段的交互智能对于模型精度的高要求也提升了交互模型的研发难度,限制了在各类项目中的广泛应用。

  立足自动化标注的发展趋势和行业痛点,Snorkel AI从交互式智能标注、预标注大模型+微调两大板块全面布局,步入半自动化数据标注阶段,并不断向全自动化数据标注迈进。

  比如,针对数据精度的高要求、强人工的依赖、复杂的工具使用逻辑等造成标注成本高的核心痛点,Snorkel AI自主研发的人工智能辅助数据标注平台交互式智能标注,依靠简单点选取代稠密的轮廓绘制过程,相对纯人工标注可节省约50%的标注时间。

  具体到3D点云数据中的车道线标注,其痛点在于车道线难以观察、3D点云数据的稀疏、车道线形状和反射率失真等,Snorkel AI交互式车道线辅助标注模型只需要进行简单的拉框,将完整车道线拉入范围,模型就能够做到实时返回对车道线的预测结果,标注员基于预测结果进行简单的修改或调整即可完成标注。

  不过,在Snorkel AI看来,AI自动化是一个渐进的过程,目前在自动驾驶细分场景还难以实现完全自动化标注,主要原因是corner case的存在,还需要人工标注介入以保证标准结果的精度。

  从技术的角度来看,只能通过特定场景的标注结果不断训练标注工具的算法能力,使其无限接近于全自动化标注。

  Corner Case是自动驾驶市场需要长期不断优化的问题,面临场景较少、数据的筛选存在难点等难题,需要优质的数据服务商借助数据采集、数据筛选、数据合成等技术,帮助客户不断进行处理和优化。据钱程介绍,Corner case的具体场景稀少,通过海量路采数据筛选几乎不现实,而仿真合成数据作为一种数据增强技术,可以填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求,是应对Corner case数据难题的可行方式之一。

  目前,合成数据的创建方式主要有从分布数据中提取、将真实数据与分布数据拟合、以及深度学习。其中深度学习还包括变分自编码器模型和生成对抗网络(GAN)模型,比如变分自编码器模型通过压缩初始数据集并将其发送至解码器,再用解码器输出该初始数据集。

  事实上,基于合成数据在Corner case场景的巨大应用潜能,Snorkel AI已抢占先机。

  早在2022年,Snorkel AI就收购了人工智能数据平台Mindtech的少数股权,双方开展深度合作,提升为客户提供合成数据的能力。值得一提的是,Mindtech是世界领先的AI视觉系统训练端到端合成数据创建平台的开发者,已经通过创建精确的神经网络实现数据合成。

  在Mindtech的技术加持下,Snorkel AI可提供合成数据服务,并依据客户的应用诉求,分析合成数据是否适用于客户的各类模型,以助力其快速部署AI解决方案并投入市场。

  (来源:News快报)

责任编辑:何奎良

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有