新浪新闻客户端

北京发布“行业大模型白皮书” 汉王科技古汉语大模型等入选典型案例

北京发布“行业大模型白皮书” 汉王科技古汉语大模型等入选典型案例
2023年12月11日 14:52

      近日,北京市科学技术委员会、中关村科技园区管理委员会正式对外发布了《北京市人工智能行业大模型创新应用白皮书(2023年)》(以下简称《白皮书》),从大模型全球发展态势、国内外行业应用概述,调研了全市百余家大模型厂商,从创新性、示范性、经济与社会效益性、可推广性等四个维度筛选出汉王科技、旷视科技、瑞莱智慧等18个具有代表性的应用案例重点展示,为相关领域开展应用场景建设提供参考。

      当前,大模型发展呈现出从技术到产品、再到商业化应用的发展路径,并不断深入垂直行业领域,垂直行业大模型成为产业落地的关键赛道。据悉,此次《白皮书》重点介绍的18个大模型典型应用案例分别来自政务、金融、医疗、传统产业赋能、文化旅游、智慧城市等六大领域,详细分析了各个大模型案例的用户需求、解决方案、项目成果。

      以国家级图书馆、档案馆数字化建设为例,古籍文献是五千年中华文明和智慧传承的重要载体,而古汉语则是记录传承这些的“源码”,如何理解这些“源码”内容并转化为有价值的数字化内容,是目前图书档案馆的数字化建设的重要工作。

      然而古籍文献与现代文献相比,在印刷排版、行文风格、用语规范等方面均有很大不同,而且没有句读信息,缺乏明确的断句、语法结构等,不仅增加了阅读与理解难度,也使得数字化工作面临更大挑战。特别是众多古籍在历史变迁中存在多次的手抄、翻译、批注等,造成了文本的差异,进一步增加了数字化理解的难度。此外,我国古籍文献的数字标引、著录等工作的标准规范严格,古籍标引、著录等领域的新手标注员上手难度大、培训成本较高,往往需要进行多次长时间培训才能够上岗工作。

      汉王科技深耕数字人文与档案领域多年,积累丰富的古籍语料和标注经验,精心训练了古汉语大模型。在此基础上,面对国家级图书馆目前古籍文献数字化工作遇到的痛点,汉王科技构建了辅助理解古籍文献、辅助著录与标引的大模型应用,取得了非常优秀的评测结果和实际应用效果。

      在实际场景中,以句读应用为例,其召回率、精度和F1分数水平已超过培训后的标注员平均水平,古籍文献理解标注应用时降本增效明显。在古籍文献翻译业务应用效果上,辅助理解古籍文献大模型方案同样表现出色,在人工和机器评测双项测试中,比ChatGPT领先最高可达55%;在实体抽取应用上,辅助理解古籍文献大模型在三项关键指标上也优于ChatGPT,最高达28%。基于古汉语大模型的图书馆生成式应用大幅提升档案著录标引效率,针对不同的数据类型,效率提升26%~60%,大幅提升数字化建设工作的效率和智能化水平,推动古籍数字化建设加速,为数字人文领域大模型应用场景建设提供了重要参考。

      汉王古汉语大模型在某国家级图书馆的成功应用,表明入选《白皮书》的大模型典型应用案例,无论从创新性、示范性、经济与社会效益性、可推广性等维度都具有行业领先水平,它们都在不断地创新迭代中,正快速融入各行各业,为商业世界带来了前所未有的创新机遇,有更多行业创新应用案例将涌现。

      未来,随着国际化发展和政策支持,北京大模型产业将继续站在科技创新和行业变革的风口浪尖,引领人工智能产业发展的趋势和方向。

  (来源:News快报)

责任编辑:何奎良

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2023 SINA Corporation

All Rights Reserved 新浪公司 版权所有