新闻中心新浪首页 > 新闻中心 > 综合 > 正文

文化传信集团电子汉文史资料库建设透视(组图)


http://www.sina.com.cn 2005年03月10日17:10 人民网
  人民网记者 刘圣清 李士燕
文化传信集团电子汉文史资料库建设透视(组图)
公司人员合影

  我国的古籍浩如烟海,汗牛充栋,是中国传统文化的主要传播形式,对世界人类文明的发展起着十分重要的作用。作为世界四大文明古国之一的中国,其历史之所以绵延几千年而从未中断,古籍对中华文化的传播和继承起着至为重要的作用。中国的古籍整理,有着悠久的历史和传统。从孔子删诗、刘向校书开始,历朝各代大规模的古籍整理持续不断,影响深远。新中国成立以后,党和国家对古籍整理事业给予了高度的重视和极大的支持。特别是1981年9月中共中央发布《关于整理我国古籍的指示》以来,我国的古籍整理出版事业飞速发展,成绩斐然。据不完全统计,新中国整理出版的古籍图书已逾万种,是现有传世古籍总量的近十分之一,为清修《四库全书》的三倍之多。

  随着社会的进步,经济的发展,文化赖以存在和发展的物质基础、社会环璄和传播手段发生了根本性的改变。信息传播手段的快速发展,向传统的印刷术提出了强烈的挑战。这既对古籍整理出版工作提出了新的要求,也为传统的古籍整理开拓了新的领域,在古籍的保存,传播和使用上发挥了巨大的效用,带来了新的发展契机。古籍的电子化、数字化,是古籍整理出版发展的未来方向。香港文化传信集团属下的北京文信传文史研究院,在文化传信集团及社会各界的全力支持下制作的“电子汉文史数据资料库”,为全球首个具有研究性的中国古典文献数据资料库,在这方面作出了巨大的贡献。

  钱锺书力主中国古籍电子数据化

  对于中国汉文史电子资料库的建立,钱锺书可谓是积极的推动者。1984年钱锺书听女儿钱媛谈到英国学者用计算机研究莎士比亚戏剧,取得显着成果,大受启发。于是钱先生在中国社会科学院开始倡导古籍电子数据化,建立汉文史电子资料库,并对该项目的立意、实施细节及目标成果都有明确的指归。在他的指导下,由中国社会科学院文学研究所研究员栾贵明、国家科技进步奖得奖者田奕等组成了研究小组。工作之初,研究小组搜求了当时所有的“中文系统”及相关资料,其中包括近十个中文系统的汉字收字情况、输入方法、构成理论和论文著述等,请钱锺书先生选定。经过深入了解之后,钱先生选择了朱邦复发明的仓颉法及其汉字平台,并断言:“仓颉法好,发明人懂中文,有远见。”

  研究小组的工作一直得到钱锺书先生的关注。1986年,当研究小组的工作遇到困难时,钱锺书先生还为研究小组专门写下一段话,鼓舞士气:“从理论上来说,计算机和人类使用过的其它工具没有什么性质的不同。它在还未被人广泛使用的时候,除自身尚待完善以外,总会遭到一些抵拒。惯用旧家什的人依然偏爱着他们熟悉的工具。有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。”在钱锺书先生、杨绛先生、以及多位志士大德的鼓励下,20年来,研究小组不敢有一日懈怠,并于2003年完成了钱锺书的遗愿《十三经索引》逐字索引。这个项目由研究小组负责人田奕带领5、6个人仅用25天完成全部6000页的清样,又经3个月精校和排版,后由中国社会科学出版社出版,时间之快、质量之高令人惊讶。

  “仓颉输入法”提供正确适合的汉字输入平台

  古籍文史资料搜集整理的一个显著特点,是汉字库的容量必须足够。异体字情况复杂,是许多电脑汉字系统所不能承载的。使用什么样的电脑汉字工作平台,在当时是一件颇费脑筋的事情,也是古籍数字化最关键的问题。最后由钱锺书先生亲自决定采用“仓颉输入法系统”。该输入法的优势是:一是录入方法符合中国传统规则,二是字数全,绝不能让古文献削足适履。钱锺书先生曾赞叹说:看来这个人是个绝顶聪明之人。20年来该院研究人员一直使用这个输入法系统,现在看来,正是因为有这个原则在,汉文史电子资料库建设才得以顺利进行。

  发明“仓颉输入法”进而被喻为世界“中文电脑之父”、17年后成为汉文史电子资料库最大支持者并出任“文信传文史研究院”院长的是———香港文化传信集团副主席朱邦复。其于1973年开始研究“汉字基因理论”、发明“仓颉输入法”,此后,推出世界上第一台“中文电脑”,2000年完成“字形产生技术”,2003年研制成功全球第一颗中文“中国芯”———飞龙中文处理器,2004年又与IBM紧密合作,凭着一颗中文“中国芯”,制定了世界多元文化低廉计算机工业全新标准和体系。这是世界信息资讯科技革命性的突破,它打破了电脑单一文化困局,开创了计算机多元文化的新时代。更可期盼的是,朱邦复在汉字基因理论的指导下,多方位深入开发汉字的智能化特性,把汉字全面引入声光磁的多媒体技术,这不仅带来汉文化的大发展,对中华文化的传承将有重要意义。

  汉文史电子数据库成果巨大

  从1985年开始,研究小组首先进行了《论语》数据库的建设,试验成功,顺利地出版了第一部使用电脑编制的《论语数据库》一书,取得了一大批科学化的《论语》数据。此后,从1986年到1993年研究小组进行了多项试验,取得了许多成果,其中比较成功的部分是对唐诗和宋词的研究。当时中国社科院院长胡绳和钱锺书先生都对此大为认可,还受到海内外学术界的赞誉,并得到国家和中国社科院的多种奖项,其中包括1990年度的国家科技进步奖,这是国内社科领域在计算机应用方面的第一个大奖。1999年,正是得知以“仓颉输入法”为平台的电子汉文史数据库取得巨大成就时,朱邦复先生及香港文化传信集团开始给予极大支持和鼓励。

  从1993年到2000年,研究小组克服各种困难,继续汉文史数据库的建设。2000年,应朱邦复先生和香港文化传信集团主席张伟东之邀,研究小组进入香港文化传信集团。至今已完成由甲骨文至北宋中期的文献入库工作。并使用电脑完成了数以亿计的汉文史研究资料的整理和出版工作。成功出版的《全唐诗索引》(30种);《全唐文新编》(22大册);《十三经索引》(4大册)以及数以十计的学术专著,均能按时、按质、按量在电脑上完成,受到国内外学术界的广泛好评。到目前止已收录宋代以前逾1亿1千万文字和168,429幅图片,宋至清的部分正在建设和拟建中。这个数据库对于古文献的整理考证及学术研究有很大的贡献。

  就文史库的规模来说。五代之前的作品12万件已基本入库。另有专著和小说近千种。此外还有二十四史。文史数据库收有一套精细扫描的百衲本原本图库,同时还制作了对应的精校文字库。二十四史在文史库里主要作为工具书使用,把二十四史中从帝王到牛二全部人物,尽数收入,钩连起文字库和百衲本的图形文件,从根本上克服了从善和机检不便的矛盾。其文字库同时也参与全文检索的运作,从而达到了一件成果处处应用的好境界。这种横向的联接,对于一般平版书来说,是不能实现的。至于通行本的删、漏、误诸多欠缺,以确凿的善本为依据,多有补充和纠正。

  一个科学、先进的汉文史数据库

  由于古典库对文史研究的巨大作用,其研究工作也广泛开展。目前,国内外此类“古典库”在网上和光牒也有几十种,但各自特点不一。“汉文史库”的方法和原则,标示着古籍“数字化”,不应该是单纯的介质的进步,需要侧重推动古籍整理和研究的科学化和人文化。以文信传文史研究院电子汉文史数据库资料的基本构筑方式来说,它一不采取按时代划分,二不采取按文体编辑,而是以作者为中心,贯彻“以人为本”的原则。不像《全唐诗》《全唐文》一类的编辑方法,存在重复混乱,有许多跨朝代、越文体的纷争和遗漏等问题。同时,也绝不采用《十三经》用后人海量注疏笺证淹没经典的传统方法。该数据库一改传统的经、史、子、集编排方法,以人为中心,作品回归作者,从而使古文献资料的整理编辑和数字化迈上合理、科学的台阶,也可以说是首创了汉文化资料系统化的新格局。同时注重对前人成果的斟别。比如《易经》经过了多人的注释解析,有的甚至已经违背了原书的旨意,从而引起了“解意”的对立和纷争,这显然与《易经》本身无关。为此,文信传文史研究院汉文史数据库充分利用电子化的优势,采取经典与注释合而分、分而合的慎重措施。此外,文信传文史研究院的汉文史数据库设有多个附件:

  其中的《人名大典》已收入22万人,另有辅名10万个,已超过通行的仅收有五、六万人的《人名大辞典》。其本身既可作为工具书,又是构成汉文史数据库的核心框架。该人名典广泛搜求可信史料,按计算机技术要求统一编写,在检索方面可对人名典下列的项目进行全文、选项、加减项和模糊的检索。其中有主名、辅名、朝代、简历小传以及资料出处和作品收载的依据等,总字数已超过1400万字。

  另一个附件《中国历史日历》也基本制作完成。这部分资料,数量巨大,约2亿3千万字,可彻底规范中历公历的复杂对照关系。日历制作的大忌是依年表推算估计。本日历上起夏朝禹(公元前2071.12.28)下迄清末帝(公元1912.02.17),共计3983年,1454111天。由于多元历法的存在,同一天可能是不同朝代、不同帝王、不同年号,甚至不同的纪历方式,实际日历单数多达5194662条。因是以一天为单位,故使用起来既完整、准确,又方便。制作时尽量将所能得到的正确信息悉数列入历表,内容包括朝代、帝讳、帝号、年号、年数、年干支、月数、月干支、日期、日干支、公元年、月、日等。将来逐步扩充为大事纪略性质的历史日历。

  一:《中国历史日历》的精妙之处——与文信传文史研究院副院长、中国社会科学院研究员\著名学者栾贵明教授的对话

  人民网记者刘圣清《中国历史日历》资料丰富,数量巨大,3983年145万天,实际日历条数达519万条,总字书超过2亿3千万字,以每页50行、1000页为一册计算,约需10万个页码,则100册才能印刷成书。为什么要花费那么大的精力做这项工作,它有什么精妙之处?本报记者就此专门采访了追随钱锺书先生30余年,现具体负责电子资料库建设的中国社会科学院原研究员、文信传文史研究院副院长、著名学者栾贵明教授。

  他告诉记者,简而言之,这个日历会给文史研究送来一把科学的标尺,可彻底规范中公历的复杂对照关系。他介绍说,我国采用的传统历法经常被称为阴历。它用严格的朔望周期来定月,又用设置闰月的办法使年的平均长度与回归年相近,兼有阴历月和阳历年的性质,因此实质上是阴阳合历。我国采用干支纪年大约始于东汉,也称农历纪年法。用十“天干”、十二“地支”相配纪年、纪月、纪日,共得六十个单位。有了干支,中华民族四千年历史就呈现于眼前。中国历中的干支,不仅有记录时间数序的意义,还兼有自然阴阳五行的具体指征,这显然为中华历法增加了深邃的哲学意味。关于这一点,历来存有争议,而且争议会随着历史而延续,这是中国古代历法科学家始料所不及的。至于干支法为我国几千年日历带来的准确性,也就是科学性,似乎并无争议。

  有了《中国历史日历表》可以很轻松地查找到你所需日期信息。从公历日期也可以准确查找对应的中历日期、朝代、帝讳、年号等。相反,知道了中历日期、年号等也可查出对应的公历日期。更重要的是,我们还能利用它来纠正被专家学者和权威著作由于工具的欠缺而长期延用推算错误的那些年月日。如:

  史学界对明代嘉靖皇帝有多种争议,但似乎对他死于公元1566年没有分歧。这个说法究竟对不对呢?翻翻《明史》,《世宗本纪》清晰的记录着:(嘉靖四十五年)“十一月己未,帝不豫。十二月庚子,大渐,自西苑还乾清宫。是日崩”。据此很容易在本历表里找出明世宗死的公历日期,即公元1567年1月23日。不难看出,嘉靖皇帝死于公元1567年而不是网上学者们所说的公元1566年。

  又如,上海古籍出版社1999年版的《中国历代人名大辞典》第1625页关于唐代赵凤的小传:“赵凤(?-953)”。墓志铭应该是最好的证明他确切卒日的依据。刘德润所作《大周故金紫光禄大夫检校司徒使持节单州诸军事单州刺史兼御史大夫上柱国天水郡开国侯食邑一千户赵公墓志铭》一文中记载(赵凤)“于广顺三年十二月五日,终于旅馆”。经查,广顺三年十二月五日是公历的公元954年1月12日。这说明赵凤确切的卒年是公元954年,并非《大辞典》说的公元953年。

  再如,历史上赫赫有名的英雄岳飞的卒年,人民教育出版社2003年11月出版的《中国历史》(九年义务教育三年制初级中学教科书)第二册写道:“1141年,宋高宗解除岳飞、韩世忠等人的兵权。秦桧还指使爪牙诬陷岳飞,以谋反罪名杀害了他。”我们核实了一下史书,《宋史·高宗本纪》是这样记载的,绍兴十一年十二月“癸巳,赐岳飞死于大理寺,斩其子云及张宪于市”。查对日历表,绍兴十一年十二月癸巳,是公历公元1142年1月27日。显然课本错了。而我们从杭州岳王庙获知,岳飞的卒日被定为公元1142年1月28日,也与正史中准确日期相差一天,可以说是个小小的憾事。

  中历的一、二、十一、十二月份都可能存在公历跨年问题,但不意味着遇到此类问题就可以类推。把“某个”当作“全部”,也会出现新的漏洞。关于唐代著名文学家韩愈的生平,我们在翻阅1992年版《中国文学家大辞典》第747页时,明确的印着“韩愈(768-825)”,正文中详尽地描述了韩愈的事迹,并引证了李翱《赠礼部尚书韩公行状》等资料,说他长庆“四年十二月二日卒”,也是该书编者对韩愈卒年判断的第一论据,这无疑是确凿的。长庆四年为公历公元824-825年,韩愈死于四年十二月二日,经推论应为公元825年,一切顺理成章,看似毫无疑问。但查一下日历表,长庆四年十二月二日竟“破例”为公历公元824年12月25日。事实韩愈并未活到编者“推论”出来的公元825年。

  中历魏明帝景初元年(公元237-238年),三月开始使用《景初历》,以当年三月为四月,造成该年无三月,这同样是“人为”造成的,如不注意,转换成公历就可能出现一个月的误差。“人为”改变中西历法的事件屡见不鲜,不是用“惯例推算”,特别是计算机的“演算”能够解决的。而文信传文史研究院在制作《中国历史日历》过程中,并非企图纠正历史的误会或强权的膨胀,而只是如实地记录历史的原貌。

  二:专家点评

  1、史树青(国家文物鉴定委员会副主任委员、国家历史博物馆研究员、中国国学院名誉院长、中国收藏家协会名誉会长):

  如果把数据库做好了,我们就能为社会、为国家、为文史研究做更多的贡献。我们过去研究的东西是凭文献为主,应该看到,今天必须把文献和科学技术相结合,这是很有意义的。他们近来研制的汉文史资料库的两个附件,跟我谈得很具体,他们工夫用得很深,我很佩服他們的工作,他們的精神值得學習。(摘自第三届汉文史资料库研讨会会议简报第七期)

  2、董名垂(清华大学著名教授):很少有国家像中国这样,有如此悠久的历史,有如此多样的文化。以汉字为载体的五千年文献,是中国历史文化的可信记录。新开发的“汉文史资料库”,就是应用现代技术、特别是朱邦复的电脑汉字技术活化了的汉文献,无疑会推动汉文史研究手段的变革。我积极支持这项工程。

  3、台湾佛光大学教授龚鹏程,去年八月专门赶来北京香山出席“汉文史资料库研讨会”。期间,对该库的建设赞誉有加,提出了很具体的建议,并赠诗一首:“参求数据欲穷年,电脑再添仓颉篇。岂但蟲鱼疏尔雅,激扬文字创新天。”(摘自第三届汉文史资料库研讨会会议简报第八期)

  三:建议与呼声

  全社会都应该关注“汉文史数据库”

  汉文史资料库是一个巨大的工程,对我国史料的收集整理起到不可估量的作用。目前,海外学者和学术界对汉文史数据库十分关注,但在国内却影响不大。目前,文信传文史研究院在按计划进行辽金元明部分校订外,正着手开始筹措一项更重大的工程——整理全清诗文。据统计,清代诗文作者的总数已超过三万人,总字数估计在4亿字左右。清代从公元1644年建立,到公元1911年灭亡,共历十帝,268年。汉文化在此期间虽有波折,但取得了前所未有的发展也是事实。清代文献的存留数量,已超过历代的总和便是一个证明。

  据了解,由于全清诗文篇幅浩翰,作者众多,状况复杂,至今无人提出。前人已进行或完成的相关书籍有《全清词》《清诗纪事》《近代诗钞》《近代词抄》《晚清簃诗汇》《清文海》《广清碑传集》等,都是局部有选择的整理,距准确地反映清代文化的原貌相去远甚,更与我国国力强大﹑文化的繁荣不相称。《全清诗文》具有深远的社会意义,将成为具有开创性的文化基础工程,它将妥善地解决清代文献的精整保存课题。并将为清代社会、文化、经济、军事、农业、科技等深入提供集中、准确、完整的资料,同时也为配合国家项目《清史》编纂的任务提供方便和全面可信的资料。

  香港文化传信集团主席张伟东表示,作为以传承中华文化为己任的集团,将不惜代价支持搞好中国文史资料的收集整理和研究工作。但由于时间紧,任务重,投入大,困难多,希望全社会能给予更多地关心与支持,力争把这个历史上空前浩繁的文史搜集工程早日完成,为建设和谐社会和全面实现中华民族的伟大复兴作出更大贡献。
文化传信集团电子汉文史资料库建设透视(组图)
出版成果

文化传信集团电子汉文史资料库建设透视(组图)
论语数据库

文化传信集团电子汉文史资料库建设透视(组图)
钱钟书的信


 
推荐】【 小字】【打印】【下载点点通】【关闭
 
新 闻 查 询
关键词
免费试用新浪15M收费邮箱 赶紧行动!
热 点 专 题
第77届奥斯卡盛典
苏丹红一号食品风波
3.15 消费者权益日
英语四六级考试改革
骑士号帆船欧亚航海
CBA全明星赛阵容公布
购房还贷计算器汇总
解读商品房销售合同
林白:妇女闲聊录

 
 


新闻中心意见反馈留言板 电话:010-82612286   欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2005 SINA Inc. All Rights Reserved

版权所有 新浪网