“识典古籍”测试版上线，开放性保护古籍的新尝试|字节跳动

　　近日，由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。该平台涵盖390部经典古籍，主要来自《四部丛刊》，共计3000多万字，即日起向公众免费开放。

　　在很多人的印象里，古籍文本往往艰涩难懂，而且接触机会不多。在数字时代，这种情况正在发生转变。借助现代技术对典籍进行数字化呈现，将卷帙浩繁的古代典籍“复活”，让那些尘封已久的字符重新跳动起来，成为每个人触手可及的工具与资料库。

　　近年来，OCR文字识别、AI句读和知识图谱等技术的快速发展让古籍数字化有了更多可能。一些科技公司与专业机构和科研院校合作，将技术优势与专业知识进行有效打通与融合，积累了较为成熟的技术和经验。这些技术支撑起如今的“识典古籍”测试版，也成为更多古籍数字化的起点。

　　未来三年内，“北京大学-字节跳动数字人文开放实验室”将陆续完成10000种古籍的智能化整理工作，基本覆盖儒家、道家和佛学的核心典籍目录。

　　“识典古籍”测试版网站首页

　　为什么古籍保护需要更开放？

　　古籍作为中华民族文化传承的重要渠道之一，记载了大量中华民族文化形态和发展历史。但由于朝代更迭、战争、自然灾害以及年代久远等原因，大量古籍已流失或毁坏。2007年，“中华古籍保护计划”开始实施，迄今已有15年。经过全国古籍普查，每部古籍都拥有了一张“身份证”，研究人员还发现了包括《永乐大典》“湖”字册在内的一批珍贵文献。收藏环境方面，全国1000余家古籍收藏单位的库房条件有所改善，超过2000万册/件古籍得到妥善保护。

　　古籍修复师在工作

　　目前，人们阅读古籍和查找资料的习惯和场景越来越多地转移到线上。同时，普通读者对于古籍的关注度也在不断上升。今年初，98岁的古籍版本目录学家沈燮元因为一部纪录片，受到广泛关注，在网络走红。在抖音上，国家图书馆副馆长、国家古籍保护中心副主任张志清，国家图书馆古籍修复专家杜伟生、故宫书画修复专家沈洪彩等，通过短视频的形式介绍传统经典作品的保护与修复工作，让更多人了解到其中的知识和意义。

　　然而，古籍保护工作仍然任重道远。据“识典古籍”项目负责人介绍，目前亟需修复的古籍数量达到1000万册件。20万种古籍中，已有8万种完成影像数字化扫描，近4万种完成文本数字化。古籍修复人力成本很高，培养一名专业修复人员也需要极高的时间成本，而古籍数字化工作面临资金缺口大、技术难度高等困难。

　　在社会各界的努力下，一批数字化古籍平台涌现出来，包括中国哲学书电子化计划(Chinese Text Project)、书同文古籍数据库等等。这些平台有着各自的优势，但也有不同局限。书同文古籍数据库收费较高，普通读者无法随时随地进查阅和使用。中国哲学书电子化计划目前囊括了超过三万部著作，但未能解决一个基本问题，即用户常常无法访问。

　　在这样的背景下，更加开放的合作与探索开始出现。

　　开放合作下的新趋势

　　在文物保护与传承的过程中，文保机构、科研院校与科技公司的跨界合作越来越普遍，珍贵古籍、专业团队、先进技术由此得以汇合。2018年，半导体公司英特尔与中国文物保护基金会合作，启动了利用3D建模与AI识别修复长城的项目。2021年3月，腾讯联合敦煌研究院开发了AI病害识别技术，用于壁画修复与保护。

　　2021年5月，阿里巴巴公益基金会联合四川大学、美国加州大学伯克利分校、中国国家图书馆等，推出“汉典重光”古籍平台，让一批珍藏于加州大学伯克利分校的中文古籍善本，以数字化的形式回归。该平台涵盖的古籍数量为20万页。从2021年6月开始，字节跳动联合国家图书馆等机构、中国文物保护基金会等，在古籍修复、活化和数字化等领域开展了一系列合作，包括捐资1000万元，联合成立古籍保护专项基金等，定向修复百余册件珍贵古籍。

　　字节跳动古籍保护专项基金启动现场

　　2022年3月17日，北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”，致力于研发开放的“古籍数字化平台”，将人工智能和大数据应用在海量的古籍文献上，实现对古籍内容的智能化整理和古文本知识图谱的自动生成。近期上线的“识典古籍”平台测试版，便是这一合作的最新进展。

　　据项目负责人介绍，该平台主要使用了三种技术，即文字识别、自动标点、命名实体识别。文字识别技术，是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术，是通过序列标注的方式对古籍自动进行标点划分。命名实体识别，则是通过序列标注识别古籍文本中的命名实体，支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%，“识典古籍”的准确率为96%至97%。

　　同时，这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示，北大在这次合作中联合各大高校学者和文献专家，负责人工审核与校对，弥补人工智能有识别错误率的短板，并利用自有学术平台，连接更多专业研究者和学生群体。

　　该平台测试版已免费向所有用户开放，在数字化文本内容之外，提供足够权威的影印底本作为参照，同时提供主题词检索和繁简体转换功能，方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时，“识典古籍”测试版也存在一些不足，比如典籍数量相对较少，标点错误率还需进一步降低。