海天瑞声贺琳：为大模型“火箭”加燃料的人

　　◎ 海天瑞声是国内最早投入AI训练数据的专业服务商之一，2023年，不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。

　　◎ “数据的清洗和标注流程对于模型的质量至关重要，它们可以提高数据的质量和准确性，帮助模型更好地去学习，也为模型的评估奠定了一个很好的基础。”贺琳表示。

　　■ 相关公司：海天瑞声（SH688787，股价92.15元，市值56亿元）

　　■ 核心竞争力：具备标准化数据集产品规模化生产能力，累计完成超过1300个自有知识产权的训练数据标准化产品的建设，在全球企业中稳居前列。较早地布局并建立了多语种能力。

　　■ 机构眼中的公司：国内AI训练数据龙头提供商，自动驾驶业务打开成长空间

　　■ 所属概念：数据服务人工智能 AIGC

　　11.2公里/秒，是火箭能够成功摆脱地球引力束缚，飞离地球的速度。而瞬间的燃料燃烧所提供的推动力，是帮助火箭一次又一次加速直至进入外太空的助力。

　　与《每经人物•专访董事长》记者交流时，海天瑞声董事长贺琳觉得，作为一切人工智能技术最上游的数据，就是人工智能这艘火箭的“燃料”。海天瑞声正是一家生成“燃料”的公司。

　　海天瑞声是国内最早投入AI训练数据的专业服务商之一，2023年，不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中，贺琳对未来的思考依旧谨慎。

　　大模型狂热：初印象非常惊艳，但对预期“审慎乐观”

　　2023年初，贺琳在海天瑞声公司年会上的发言稿，80%由ChatGPT完成。

　　“非常的惊艳，有点不（敢）相信。”这是贺琳对ChatGPT的初印象，“当然，也有不尽如人意的地方，我觉得这才是我们要努力的方向。”ChatGPT的出现，让这家数据公司突然站到了资本市场舞台中央。

　　2023年开年以来，海天瑞声股价一路走高，3月一度涨至191.96元/股，较其2021年8月上市时翻了一番。而海天瑞声方面，则已多次在投资者互动平台发布提示，称公司与OpenAI没有合作，也尚不能预期大模型业务将带来多少收入。

图片来源：每日经济新闻

　　“年初，我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为，合适的入局时机应该是当这项技术能够真正在行业中落地的时候，这意味着其有真正的应用场景，而非伪场景。“我们要确定这个需求是真的，且有人会为这个需求买单，这才是一个正常的商业逻辑。”

　　同时，当行业落地时刻到来，数据的需求量也会迎来大规模提升。“这给公司带来的上升空间，我认为是非常乐观的，（目前）我们还是抱着乐观审慎的态度去看、去跟踪、去研究这项技术。”

　　“判断一个行业，我们会更深刻地去想这个行业到底需要什么样的数据，只有想清楚这件事，我们才会走过去，我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍。

　　布局自动驾驶行业是海天瑞声在2021年定下的战略方向，在贺琳看来，自动驾驶赛道已经符合这个判断逻辑。从L2到L4，自动驾驶已经有相当多的应用落地，同时，自动驾驶的数据需求量十分巨大。

　　她判断，自动驾驶是一个人命关天、对安全要求非常高的技术，它需要大量数据来打磨，去覆盖各个不常见的场景来保证安全性，因为任何极端天气或极端场景都可能导致误判。“怎么避免？就需要大量的数据去训练，让模型接触到更多长尾的场景来提高它的安全性。”

　　今年4月18日，海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

　　数据需求增加背后：系统性差距依旧存在

　　贺琳曾就职于中国科学院声学研究所，从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作。

　　成立于2005年的海天瑞声，最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到（缺少）数据的问题，解决办法就是工作人员，加上研究生、博士生，自己来做数据。”尽管彼时实验室的数据量相对较少，但也已经算是一项繁琐的工作。

　　随着技术的发展，智能语音从实验室走向大规模应用阶段，更多场景的覆盖需求，意味着数据需求随之大规模增加。与此同时，在与一些就职于大型企业或研究机构的前同事交流时，贺琳发现，大家都在关注数据的问题。“（大家）认为数据是一个非常大的瓶颈，阻碍他们技术的落地。所以我就在想，那是不是可以由我出来做这件事情，帮助大家解决这个困难。”

　　时至今日，贺琳觉得，彼时促使她创业的瓶颈依旧存在。

　　在她看来，数据的需求是跟着技术的发展而变化的，随着技术在各个行业中落地，就会有更多的数据需求爆发。“像现在大模型起来，很多人都认为，数据差距是一个造成系统性差距的非常重要的原因，所以大家认为数据还是很重要的要素，这个瓶颈依然存在。”

　　不同的是，贺琳创业之初，国内竞争对手少，海天瑞声得以在市场快速突围。而如今，国内已经出现一批新的数据公司，先发优势成为当下数据公司核心竞争力的基础。“其实，这个行业有很多的技术壁垒和‘know-how’，也是需要不断打磨项目，才能去沉淀自己的技术、学会各类‘know-how’的，这是靠项目积累出来的，而不是短期能很快积累起来的过程。”

　　“燃料”的诞生：庞大参数支撑大模型

　　海量数据如何最终成功支撑起庞大参数的大模型运行？需要首选了解一个概念——数据集。

　　贺琳介绍，数据集的产生是一个非常复杂的过程，其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

　　在设计环节，需要先去了解数据集是为了解决哪个问题，这个问题需要什么样的数据，需要多大的量，需要什么样的场景，以及采集的样本、规模、内容，包括采集的设备、标注的规范等等；采集环节则是按照设计的方案，到大千世界采集，有可能是声音，有可能是图像、图片，又或是手写的字、道路的场景。采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程，最终才能生产出一个合格的数据集。

　　这其中，清洗规则的好坏、标注的准确性都会极大地影响数据集的质量，进而影响模型的效果。

海天瑞声人工智能基础数据创新服务基地

　　贺琳举例说，海天瑞声的大模型数据清洗率是5%，即清洗出来正确的数据仅仅占原数据的5%，这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题，“我们通常说95%、98%或者是99%，不同的准确率对模型训练的结果有非常大的影响”。

　　“数据的清洗和标注流程对于模型的质量至关重要，它们可以提高数据的质量和准确性，帮助模型更好地去学习，也为模型的评估奠定了一个很好的基础。”贺琳表示。

　　贺琳认为，高质量的数据包括了数据的丰富度，场景的丰富度，数据的准确性、一致性等，这都是衡量高质量数据的标准。她也认同，高质量数据的提供，需要高质量人工的支持。

　　“有一些高质量的数据，尤其是行业数据，确实需要更高层次的人去处理。因为我们也了解到，像OpenAI这样的公司，它背后也有一个很强大的数据处理团队，他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里。”她表示。

　　浪潮的下一步：离开人工，实现智能

　　“有多少智能，就有多少人工。”这句话依旧得到大部分人的认同。

　　在海天瑞声这家“燃料”制造商，优质“燃料”的诞生，同样需要最了解“火箭”的人来把控。

　　贺琳介绍，海天瑞声的管理层除拥有比较好的学术背景外，也都有在外企或大厂等机构的工作、管理经验。“他们以前是数据的使用者，加入公司以后，他们非常知道数据的使用者需要什么样的数据，这可以让他们更快速地对市场有预判，也会更好地跟业界交流。”

　　她同时坦言，为不同行业提供的数据，需要具备不同行业专业知识的人来处理。“至少在初期包括规则探讨、打磨标签、尺度和标准的把握阶段需要有专业的人，但把规则定下后，可能通过一些训练，让基础的人员能具备这样的训练能力。”

　　但是，在贺琳看来，“有多少智能就有多少人工”是一个误解。“确实，这个行业有很多的人力，但人力是在技术的支撑下做这些事，没有技术支撑，可能人力需要现在的10倍都不止。所以，我们这种综合性的数据服务商一直都在追求用更自动、更智能的方式来完成数据的任务，不断解放人力。”

　　贺琳希望，能一步步减少人工对人工智能的参与，大模型的浪潮，正在加速实现这个目标。“让计算机自动处理数据，永远都是我们的追求。”

　　据她介绍，公司也在探讨未来的两大工作方向，一个是打造一批针对通用领域、垂直领域，且具备单模态和多模态属性的、供给大模型使用的数据集产品。另外，海天瑞声也在计划启动数据生产垂直大模型的研发项目，希望用大模型技术来支撑数据的生产。“大家都说大模型将给众多垂直行业带来重大积极影响，其实数据处理本身也是一个垂直行业，我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”

　　“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工，但是我们一直在尽量想办法减少人工。包括加入很多算法，提高对数据做预标注的准确率，准确率越高，人工参与的程度越低。”

　　但贺琳也坦言，这件事并不容易。“其实，如果真的把这个事都做成了，人工智能就完成了。因为不需要人的介入，相当于它处理的东西都跟人想的是一样的。”但另一方面，当技术达到一定突破后，伦理、法规、安全等问题就会出现，如何解决这些问题，也是今后整个人工智能行业面临的难题。

　　新的变革契机：多模态需求将推高行业门槛

　　每一次的火箭升空，都需要大量的燃料助推。

　　贺琳认为，当人工智能技术迎来新的变革时，对数据提供商来说就是一次契机。“我觉得可能也是根据一些需求，比如像苹果手机的siri出来以后，大家就会认为在语音上有一些突破，这些数据的需求就会暴增。”

　　贺琳觉得，在整个人工智能行业，数据就像人类学习知识时使用的教科书，“你的教科书越全面，信息越准确，学习的结果就会越好，其实机器也是一样的”。她认为，数据集本质上就是人类把自己对大千世界、万事万物的一些认知和判断方法加载到数据上，然后让机器去学习，使机器得出来的对事物的判断结果更加趋近于人类。在她看来，这就是数据公司的价值。

　　而在大模型的热潮之下，多模态的能力成为一个关键词。贺琳表示，多模态数据是未来的一个方向。“多模态的数据里蕴含了更多更丰富的信息，对机器做判断也会提供更多的信息来源，但多模态的数据（获取）的难度也非常大。”

　　她进一步介绍，首先，多模态数据要求的量很大，合规取得这些数据的难度就会更大；其次，多模态数据采集的设备也非常昂贵，对数据公司的财务能力是一种考量。此外，多模态数据对齐的问题、对齐的标准等，都是多模态数据的难点。