中华字库收录56个民族80多种文字

2014-12-17



中华字库收录56个民族80多种文字 



信息内容

中华字库收录56个民族80多种文字

 

发布时间:2012-12-12    来源:人民日报    浏览: 2102 1379    作者:人民日报

图为中华字库资料来源:《甲骨文合集》6057正,河南安阳殷墟出土,最早著录于罗振玉《殷虚书契菁华》 (1914)(上图);郭店楚简《老子》甲本第一简。1993年出土于湖北荆门郭店一号楚墓(下图)。


 对很多普通读者来说,“中华字库”还是一个陌生的名字,但在业界与学界,它的启动却吸引了众多关注。借用新闻出版总署副署长孙寿山的话说,这是引领中华文化步入信息化、数字化时代,提高中国文化软实力的一项重要举措。这样一个使命重大的“字库”,究竟有着怎样的玄机?近日,我走访了新闻出版总署中华字库总体组专职副组长张力伟,他为我们揭开了神秘面纱,我们一起走进“中华字库”的大世界。

 

  收集字符,“文理”结合

 

  为满足文字及其他书面符号在计算机上的表示、传输、存储等种种要求,需要对文字和符号予以编码,并用符号的位序将它们组织为一个字符集。这一编码字符集,俗称“字库”。简单地说,“中华字库”就是一个收纳了中国古今的汉字及少数民族文字形体的庞大编码字符集。对于这项国家重大工程,《国家“十一五”时期文化发展规划纲要》作了如下表述:“中华字库”工程是要“建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术。”

  这一简洁表述的背后,其实包含了很多复杂的内容。张力伟说,这项工程不是只简单地收集文字进行编码整理。一方面,我们要从数千年流传下来的文字载体中,尽可能全面地搜集汇聚古今各种文字形体,在所出现过的实际文本原形图像的基础上,确定历史演变,整理字际关系等等,对学术质量的要求很高。为此,工程聘请中国文字学会第一任会长,在文字学界极具威信的裘锡圭教授担任首席专家,会同文字学界的许多专家参与研发;另一方面,这么庞大的整理工作,若像传统的那样人工搜集、抄录,将不可避免地存在人为错误多、记录信息量少等问题。“中华字库”工程将以现代信息技术作支撑,通过有效的人机结合,让计算机巨大的存储能力和便捷的检索类聚能力为文字专家的专业研究服务,利用机器来放大和倍增专家的工作效力。工程决定由中国科学院软件研究所等软件研究的精锐部队来承担工程的技术研发,为工程的开展提供技术支撑。

  由此看来,“中华字库”不仅关乎学术,还关乎技术,“文理”结合十分紧密。这项工程是在对文字学深入研究的基础上,研究各种文字收集、筛选、整理、对比和认同的方法与原则;充分利用先进的数字化技术,开发相应的软件工具,在统一的数字化平台上,建立人—机结合的文字收集、整理、筛选、比对和认同的操作与管理流程。中华字库工程不仅会全面收集整理全部汉字、建立汉字的主要字体字符库,还会尽可能全面地收集整理少数民族文字并为其建立主要字体字符库;不仅要提交古今汉字及少数民族文字的国家编码、国际编码标准提案,还要为中华字库在不同领域的应用提供支撑工具与环境、实现中华字库在互联网的在线发布,并且建成面向用户的动态补字系统。在数字化服务方面,可谓是一应俱全。

 

  已有整理,难应所需

 

  也许你会说:全面整理文字,有必要么?咱们不是有《汉语大字典》了么?其实不然。据了解,1985年开始分卷定稿的《汉语大字典》共收列楷书汉字6万左右,已可以算是中国汉字的一次全面梳理,亦是当时条件下最优秀的汉字科研成果。然而,对于我国浩瀚的文献档案中的实际用字,对于不同时代不同地域社会生活中的实际用字,当时还不具备全面调查的手段和条件;而且该书以楷书文字为主,至于甲骨文、金文、小篆和隶书等古文字形体,并未全面整理,只在楷书单字条目下收录了有代表性的一部分,用以反映形体演变关系。除了汉字,我国还有许多少数民族文字,包括不少海外收藏的少数民族古文献文字,没有被整理出来。研发成功后的中华字库,不仅将包括针对社会应用的实用楷书字表,也将形成楷书总字表,还将有一个包含古文字的整体的汉字字表,到了最后阶段,少数民族文字也将被整合进来,最终形成一个完整有序的,有着内在联系的大型“中华字库”文字资源库。

  与之前已有的文字整理工作相比,“中华字库”的优势还在于,其文字整理将面向出版及网络数字化需求。也许有人会问,咱们的电脑不是已经能方便地输入汉字了么?是,可能你觉得够用了,可是像派出所负责户籍管理的警察或者街道办事处负责人口普查的同志等肯定会给出不一样的回答。目前,我国的数字化建设正遭遇瓶颈。小到自然资源、地名、人口等清理普查,大至国家的经济、地理空间等战略性、基础性的信息库建设,还有公安、民政、金融、保险、海关、民航等行业的信息服务与监管存在很大的用字缺口。我国文字种类繁多且字量庞大,特别是汉字,内部关系又异常复杂,现有的计算机字库,无论是国家标准还是国际标准,都存在收字不全、字际关系不清等问题。少数民族文字缺口更大,除几种主要少数民族的文字外,许多甚至还没有编码。这些问题都严重影响了国家数字化建设的方方面面,也在直接或间接地影响着人们的生活。建设“中华字库”工程,就是要彻底解决这一瓶颈问题,全面推动我国的数字化建设。

 

  任务重大,远景诱人

 

  据了解,与“中华字库”类似的工作,世界各国都在做。欧美一些国家甚至把当地的土著文字、古代表意文字等一些极为罕用甚至早已死亡的文字,都加入了国际编码,使本国本民族的历史文化得以在网络上流传,从而展示出国家的文化实力。

  我国的古汉字与现代文字一脉相承,加上有大量出土文物支撑,整合现有的研究成果,进行编码、制作字库,就更显得有必要了。包括古老的汉字及其他少数民族文字在内的中华文字,是中华文化的传承“双手”。我国历代的盛世,都曾对各民族的古今文字进行过广泛的搜集与整理,以更好地传承各种文献。现在,随着中国在国际上的影响力越来越大,中华文化走向世界已成为潮流。在当今世界数字化、信息化的发展大趋势下,未来人们的生活会越来越多地与数字化相融。中国文化要“传下来”、“走出去”,当然要依靠数字技术和网络平台才行。我们还要将古代的、现代的各种图书文献逐步数字化,使中华文明得以永久保存,并且广泛传播,这也是历史和现实的一项非常急迫的重大任务。

  “中华字库”工程的设想,就是新闻出版总署在这样的背景下,于2006年提出来的。国家对这个项目非常重视,先后将其列入《国家“十一五”时期文化发展规划纲要》和国家《文化产业振兴规划》。工程由新闻出版总署重大科技工程项目领导小组办公室负责总指导,以中国出版集团公司为牵头单位,成立了工程总体组,负责工程建设的整体管理和组织实施。除首席专家裘锡圭教授之外,总体组还从各参与单位抽调,或聘请总体组单位外的技术专家、管理专家等,组建起项目的技术团队,以承担总体组的各项工作。经过几年的精心筹备,工程目前已正式进入实质性研发阶段,计划五年完成。

  审定过“中华字库”研发方案的专家说,工程是比秦始皇统一汉字规模更大的中华文字整理工程,必将对中国乃至世界文明的历史产生重大而深远的影响。