天将降大任于是人还是斯人？“识典古籍”里有参考答案|字节跳动|穿越时空的古籍

　　最近,有关“故天将降大任于‘是人’还是‘斯人’”的话题登上网络热搜。不少网友表示,记忆中,语文教材里这句里是“斯人也”,现在却改为“是人也”。

　　对此,北京大学中文系教授孙玉文接受采访时表示,古代传下来的文献记录中,孟子这句用的就是“是人”。

　　事实上,到底是“斯人”还是“是人”,不仅可以查阅教科书,也可以在字节跳动新开发的识典古籍平台直接搜索古籍原文。

　　(《四库全书-孟子注疏》)

　　他提到,当读到朱自清《背影》的时候,能不能马上在头条上看到背景知识?当时朱自清和父亲闹别扭好几年,而且是不说话的那种别扭,在这种背景下,他目送父亲回去,才会看着背影有感而发。如果能知道这些,用户对《背影》的理解可能会完全不一样。

　　而当下,字节跳动的古籍数字化公益项目——识典古籍,就是一个百科全书式的尝试,收录其中的,是比《背影》年代更久远的中国古籍。

　　据统计,中国现存古籍约20万种,建国以来,中国实现文本数字化的大概3-4万种,平均每年500多种,按照这个速度,实现古籍文本数字化大概需要两三百年。

　　能否借助AI的力量,加快中国古籍古籍数字化的步伐?

　　近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。目前,字节跳动内部已经有15个项目组参与到古籍数字化当中来。

　　不只是将古籍通过OCR(图像转文字)技术进行数字化,更重要的是,通过NLP技术,让AI学会读古文,从而实现对古文进行断句、分词、打标点,进而实现古籍信息的搜索。

　　“过往我们如果想了解哪些文献提到了中国古建筑里的‘斗拱’,可能需要去图书馆一本一本的翻古籍,未来,我们可以通过识典古籍的平台一键搜索。”抖音集团企业社会责任部产品经理唐垲鑫举例说。

　　在过去的几年中,谷歌等国内外的科技公司都曾经提出古籍数字化的计划,但部分项目因为技术、版权等种种原因而阻力重重。

　　在字节跳动的规划中,这一平台将完全对公众免费开放,并尝试用“众包”的方式,邀请全社会一起参与到古籍数字化中来。

　　这一次,字节跳动能成功吗?

　　古籍数字化有哪些难点?

　　中华文明是人类文明史上唯一没有中断的古老文明。而没有中断的证据,就体现在中国拥有海量古籍上,但古籍的“续命”早已迫在眉睫。

　　全国高校古籍整理研究工作委员会主任安平秋曾将全国古籍工作比喻成一条大河,国家图书馆等中直机关在上游负责原版善本保存,中游高等院校和古籍研究所进行整理研究,再由古籍出版社进行整理、出版,最后还要进入一个大海,进行阐释应用,也就是传播和推广。

　　因此,从一条大河再到大海,其中涵盖的工作量可想而知。但在2015年之前,全国做古籍修复的人不到100人,而且连本科以上的高学历人才都没有。

　　目前,全国专业与半专业的古籍保护和研究人员,包括整理研究的出版的加在一块不到1万人。相比上千万册亟待修复的古籍来说,人才培养任重道远。

　　(国家图书馆副馆长张志清在台上分享全国古籍普查登记情况)

　　在新技术兴起之后,古籍数字化成为保护古籍重要途径。但用技术手段提高古籍数字化效率,也面临很大的挑战。

　　举个例子,古籍上使用的繁体字,存在异体字、生僻字、通假字等,同样一个汉字可能有几十种写法,在不同朝代,不同地方,甚至不同版本的书籍中写法都不一样,如何在数字化过程中准确识别,就面临较大挑战。

　　而且,古籍中没有标点,但现代人的阅读习惯是需要断句。以前,断句的工作是靠对古籍有足够了解的专家学者来完成,在人工智能时代,能否教会AI对古文进行断句、加标点,成为工程师们的一个目标。

　　更进一步,能否开发出一个工具产品,让全国的图书馆、古籍爱好者,乃至普通人都加入到古籍数字化中来?如果这些都能实现,无疑将大大加快古籍修复的进度。

　　字节跳动开发“识典古籍”

　　2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在古籍文献的保护和开发上,实现对古籍内容的智能化整理和文本知识图谱的自动生成。

　　近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。

　　据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。

　　目前,行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

　　测试版上线之前,识典古籍平台已经进行了多轮内测。每次内测大概有2000人左右的用户参与,主要人群有三种,一种是普通大众,另一种是古籍爱好者,还有一种是古籍研究学者。

　　几轮内测下来收集了大概300多条问题,采取了中间90条进行了迭代,主要是一些体验方面的改进。比如有些古籍名字前后不一样。像《诗经》,它的底本其实名字叫《毛诗》。这样不同的名字,会影响搜索结果。