- 相关推荐
“互联网+”时代的古籍数字化新思路论文
摘要:本文分析了目前中文古籍数字化过程中遇到的问题,在“互联网+”的驱动下,通过借鉴成熟的“reCAPTCHA”技术,构建基于互联网知识网络的古籍数字化平台。
关键词:古籍 互联网 大数据 知识网络 验证码 数字化
一、古籍数字化出现的问题
1、古籍数字化研究现状
古籍又称典籍、文献,是指没有采用现代印刷技术来印制的书籍。中华文明五千年从甲骨文、简牍、卷轴再到线装,留下了大量宝贵的古籍,作为中华文明文化延续的印证,古籍整理是非常重要的。
古籍整理的传统方法,是通过对古籍进行审校释(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行阅读。古籍整理的传统方法主要依赖手工进行,有着操作过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。在计算机技术出现后,古籍整理有了新的工具和方法,即古籍数字化技术。通过利用信息技术将古籍文献进行加工和整理,并使其转化为电子数据,可以通过光盘、网络进行保存和传播,有效解决了传统古籍整理的缺点。
中文古籍的数字化最早是二十世纪七十年代,从计算机技术发达的美国开始的。我国在引入相关技术后,产生了大批有价值的成果。国家图书馆的“古籍特藏文献数字化计划”,完成了“甲骨文”、“数字方志”、“碑砧菁华”、“敦煌遗珍”、“西夏碎金”、“永乐大典”等成果。其他研究机构也推出了大量产品,其中北京大学所著的《中国基本古籍光盘库》,将收录古籍万余种。另外,在CALIS项目和CANAL项目中涉及到的古籍子项目也有很好的成果。
国际上,拉丁文体系古籍的数字化工作也进行了大量研究工作。由欧盟二十六家图书馆联合推出的IMPACT(Improving Access to Text)项目,是一个通过研究OCR(Optical Character Recognition,光学字符识别)技术,来推动拉丁体系文字古籍数字化工程。
2、古籍数字化的发展与瓶颈
我国古籍数字化的发展经历了联合目录阶段、目录+影像阶段和全文检索三个阶段。
第一阶段是20世纪80年代,联合目录为古籍数据库检索系统的开发,以数据库的形式储存。通过利用计算机,对古籍资料进行目录检索、内容整理、储存、数量统计,以及编制索引,极大的改进了古籍文献的检索方式,是古籍研究的辅助工具。最初的古籍数据库主要是书目数据库,很多省市级图书馆都建立了书目数据库,其中南京图书馆建立了40万条中文古籍书目数据。
第二阶段是20世纪90年代的目录+影像阶段。这个阶段形成了以光盘为载体,可通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。1997年武汉大学出版社推出的“四库全书光盘版”共150张光盘,以文渊阁本《四库全书》为底本,将全书两百余万页逐页扫描成电子文件。
第三阶段,2000年起古籍数字化进入了全文检索阶段。将古籍的全文录入进数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。并且配置网络化,以各地区的图书馆为节点、网络为纽带建立了网络上的联合数据库。
通过网络共享服务,可以不再依赖个人存储也能得到海量资源。然而古籍数字资源不足,影响了网络化的发展。古籍数字化加工有着很多的问题。
2.1机器难以提高对古籍的识别能力
整理好的古籍进行数字化的第一步,便是古籍录入。
图书数字化录入的方法有两种,分别是人工键盘输入和计算机光学字符识别(OCR)扫描输入。人工键盘输入属于手工作业,需要由录入人员看着图书,逐字录入,有着效率低、成本高的缺点。OCR是一种先进的自动化技术,通过机器来大量识别图像为文本,是大量图书数字化的主要手段。但是,如果图书是古籍的情况下,机器的录入难度就增加了不少。
缺字:
由于计算机对文字的处理要通过编码来完成,国标字库(GB2312)收录有6763个字,国标扩展汉字字库(GBK)收录有20902个字。而古籍中通用字约有四万,常用的异体字约为两万。相对古籍中的繁体字、通假字、异体字、避讳字而言,计算机的编码库无法满足古籍输入要求。
排版:
古籍不仅仅是竖排版的问题,有无钤印、句读、栏线,标注分为单行标注和双行标注,写本、刻本、家谱、碑拓等等,甚至出现手写字体,都会让计算机无法识别。
所以,要提高古籍识别系统的可用性和可靠性,必须建立一套自我学习系统,让它尽可能接触更多古籍:从中提取新字样来扩充字符集,识别新版式来增强版面分析能力。
2.2专业要求强、投入不足
现代人能将古文顺利“认出”,就是一件非常难的事情。
句读:
古文是没有标点符号的,在阅读古文时要做到正确表达和语气顺畅,必须注意文句间起承转合。不懂句读会造成误读、误解原意,所以古人在《三字经》中要求“明句读”。唐代文学家韩愈在《师说》中就提到“句读之不知,惑之不解,或师焉,或不焉,小学而大遗,吾未见其明也”。除非进行专门的学习和研究,现代人很难读懂古文。
生僻字:
汉字是在不断发展和变化的。中国最早商代甲骨文中的文字有三千多字,汉代《训纂篇》有五千多字,《说文解字》有九千多字,晋代《字林》有一万二千多字,后魏《字统》有一万三千多字,唐代《玉篇》有两万二千多字,宋代《类篇》三万一千多字,清代《康熙字典》四万七千多字。1915年,欧阳博存的《中华大字典》四万八千多字。1970年,由张其昀主编的《中文大辞典》四万九千多字。1990年,由徐仲舒主编的《汉语大字典》五万四千多字。1994年,冷玉龙等的《中华字海》收入大量废弃的字,总字数多达八万五千字。而新课标在义务教育阶段对学生的识字要求仅有三千五百个。
异体字:
同一个汉字在古今也存在多种写法,比如有部分古书会把“嫦娥”中的“嫦”写成“常”。鲁迅作品中的孔乙己强调茴香豆的“茴”有四种写法,这些字统称为异体字。古籍整理要求把几个异体字改为一个字,需要有很多古文经验并结合上下文的理解,要求整理者有很深的古文专业知识。
所以古籍整理工作只能依赖于专业人员。古籍资源数字化是传统文化学习与现代信息技术的结合,现在的古籍整理专业人员多为文科学生,很少有懂得计算机技术,而懂得计算机技术的人员又缺少古文知识。同时进行两个学科人才的培养,要求教育机构提供跨学科的教育。从目前的情况来看,投入是远远不足的。
二、搭建基于互联网的古籍数字化新平台
经过了十几年的飞速发展,互联网从早期的由网站编辑人员主导发布内容,进化为由网络用户主导发布内容的互联网产品模式,也就是web2.0概念。产生了如知识网络(维基百科、百度百科、百度知道)、社交网络(微博、微信)等等大量依赖用户做内容和推广的成功产品。随着大数据、云计算等新技术的成熟,将互联网转化为数据库、向人工智能进化成为了可能,这些由用户上传、维护的内容,通过数据挖掘,将会产生难以想象的更高的价值。
那么古籍数字化这种专业性这么强的东西,如何交给互联网用户呢?互联网最大的特点就是海量数据的汇集,有时作为一个用户提交的看似很少的数据,在千万个互联网用户那里就形成了知识库。我们使用一种知识网络为核心,通过验证码技术做为内容来源,搭建一个基于互联网的古籍数字化平台。
图1.知识网络为核心的古籍数字化平台架构
1、互联网验证码的活用
我们回到古籍输入。既然古籍OCR那么困难,专业人才又不足。是否有方法避开ORC这个过程,不需要依赖专家,又能完成古籍的输入呢?
互联网给了我们一个非常简单、而且每天可能遇到很多次的办法,那就是各大网站系统的“验证码”。
在网络刚诞生的时候,是没有验证码这种东西的,网络上的用户注册,就像进入一个没有门铃、敞开大门的屋子。这造成的结果是,伪装成用户的恶意程序,可以随意在网站注册,将垃圾评论和垃圾邮件肆意传播。
互联网时代早期,美国雅虎公司是最重要的免费邮件提供商之一,由于邮箱用户每天会收到大量这样的垃圾邮件,为此雅虎公司耗费了大量资源来阻止这些垃圾邮件。通过工程师的分析,邮件的发出者正是来自于自己的服务器,恶意程序假冒用户申请了免费邮箱,每天有大量的垃圾邮件通过免费邮箱发出。雅虎为此对人机辨识问题进行了研究。
最后雅虎选取了Luis Von Ahn提出的,通过验证码识别恶意程序的方案。由于当时计算机辨识技术落后,对于经过扭曲、字迹有污染的文字(图4),计算机是不能辨识的,而人类只要看一眼就可以轻松认出这些文字。计算机先是产生一个随机包含字母和数字的字符串,然后生成图像,用程序将图像上的字符串进行随机的污染、扭曲,再将图像推送到网站注册、登录的入口。凡是能够准确辨识这些字符的视为人类,可以继续下一步服务。
图2.扭曲的文字使得机器OCR识别困难
仅仅几秒钟,验证码技术带给了计算机网络安全,全世界每天都有数以十亿计的人通过几秒钟的时间辨认这些验证码。卡内基梅隆大学的研究室有一个新的想法,每一次识别都有一次的输入,如何把这么多的输入都利用起来。
由于过去落后的印刷技术,歪歪扭扭的古籍文字天生能达到验证码的要求,为此卡内基梅隆大学成立了“reCAPTCHA计划”,以古籍录入为目标的验证码输入系统。这个计划先将古籍仅做扫描后,由计算机程序切割成小段图像(图5),显示在验证码图像中。网友在看验证码图像后用人脑识别然后输入,输入的结果汇集到服务器中。通过“reCAPTCHA计划”,整个纽约时报130年的报纸存档的数字化,原本无法估算的时间和成本,由网友用了几个月就完成了。
图3.reCAPTCHA计划中数字化文档生成的验证码
没有输入过的古籍是没有正确答案的,为了避免用户随意输入,为此卡内基梅隆大学改进了传统的验证码。在新的验证码中,有两个字会被显示出来;一个是未辨别的字,另一个是知道答案的字。如果验证码输入者正确的回答出已知答案的字,那么就假设他所输入的另一个没有答案的字也是经过认真考虑填写的,系统将这个结果作为正常输入而不是随便输入。
中国古籍中的汉字识别是非常困难的,要依赖字体、字库、需要学习等等,我们是否跳过这些操作去完成古籍数字化?“reCAPTCHA计划”给了我们很大的启示。汉字作为“图像”来分离非常简单,只需要使用最基本的图像灰度扫描技术,便能非常清晰的将汉字所在的区域,一个一个的分离开。然后就将分离开的图像,发送到互联网的一个一个页面中,由网友完成识别。
2、知识网络的建立
验证码只能解决从图像到文字这个过程,究竟得到的“文字”是否正确,“reCAPTCHA计划”在解决中文古籍数字化时候就束手无策了。
英文从古至今,一共就26个字母。而汉字究竟有多少个,至今没有一个统一的说法,光康熙词典中就收录了47035个,而且大量的异体字、生僻字。不仅仅是识别,计算机是否对字库有支持,会给识别出的汉字的录入也带来极大的困难。
为了解决这个问题,我们引入互联网的知识网络。
图4.知识网络流程
用知识网络来进行古籍数字化资料整理:
使用简单
知识网络的展现方式为超文本页面,可以快速生成、存储、更改,使维护更简单;使用简单的格式标记代替HTML格式标记,并通过简单标记,直接通过关键字名来建立链接;关键字名作为页面名称,并且被置于一个单层的平面空间中。这样,不光是一本古籍,古籍中的一个段落,甚至是古籍中的一个字,都可以作为一个页面,成为一条单独的知识。任何成员都可以建立想建立的古籍条目。 有组织
不仅仅是页面内容,整个超文本的组织结构也是可以修改、演化的,这就给了知识体系一个组织性。而且内容重复的页面可以通过超文本汇聚于一个,并改变相应的链接结构。解决了同一本古籍资料,由多人以不同名称多次创建的问题。
可增长
知识网络中可以随时创建新的知识条目,而没有内容。新的知识条目以链接方式存在,通过点击链接,就可以创建页面内容,从而使系统得到增长。页面内容创建和修改的记录也是可以记录的,可以获取每一个修改过的版本。由于古文的释义、句读等,即使是专家也可能有多个意见,这样保证了网友可以看到同一条知识的不同理解。
新型古籍数字化平台包含了我们经常使用到的服务,以知识网络为主要代表,“一对多”和“多对多”的传播模式并存。
知识网络为古籍数字化建立相应的栏目后,以书、册、章节、段落,甚至一个汉字,都可以建立一个条目。包括由验证码系统分拆的每一个图像以及合并后的整页图像。对“reCAPTCHA计划”的另一项重要改进是,为了保证用户在输入验证码时的正确性,在知识网络中可以实现“多机识别”,即认为“大多数人是正确的”这样的一个思路,将同一条验证码,由多人进行识别判断,最后通过百分比来确定最终的识别结果。
事情到了这里还没有结束,为了保证更准确的结果,我们利用知识网络有组织的特点,由专家完成对争议内容的最终修改,专家给出批示,又可以再次作为一个知识点,通过网络二次传播。这样就不光完成了对古籍数字化,还解决了古籍研究人才不足的问题,还可以通过网络培养更多的人才。高效、有效的完成了古籍数字化和文化传播的两重重任。
三、互联网+古籍数字化
李克强总理在政府的工作报告“新兴产业和新兴业态是竞争高地”中提出的“互联网+”行动计划,是互联网公司“互联网改造传统产业”基础上的进一步深入和发展。
“互联网+”实际上是互联网发展新形态,通过互联网的云计算技术和大数据技术,来组建一个知识社会,进而推动传统产业发展。“互联网+”所面临的不光是互联网移动,也不是仅仅应用于某一个传统行业,在加入了云计算、大数据和知识后,从而造就了创新,进而改变了人们的生产、工作、生活方式。互联网+古籍数字化工作就是“互联网+”浪潮中的一个创新:
1、用户参与内容制造。与原有的古籍数字化单向信息发布的模式不同,新型古籍数字化平台的内容通常是网络用户发布的,网络用户不仅仅是知识体系的浏览者同时也成为了知识体系的制造者,这也就意味着新型古籍数字化平台为用户提供了更多参与的机会。
2、全方位交互性。以知识网络为架构的新古籍数字化平台,不仅实现了用户在发布内容过程中与网络服务器之间交互,而且也实现了同一网站不同用户之间的交互,所发布内容之间的交互。
3、轻便访问的网站。早期的古籍数字化成骨展示平台是以局域网访问为目的设计,即使是在进入全文检索阶段后实现了网络化访问,仍然是重系统轻内容的设计。知识网络架构的古籍数字化平台,网站设计代码规范,并且减少了大量冗余代码,减轻了网络带宽压力,加快了网站访问速度,而且对于用户和搜索引擎更加友好。
4、与原有网络化的古籍数字化网站没有绝对的界限。新的古籍数字化平台,可以成为原有的古籍数字化模式的工具,新产生的内容可以回馈原有的网站和平台。
“互联网+”的模式,并不是从此让传统产业消失,而是给他们注入一股新的活力,更高效的发挥作用。互联网最大的贡献就是“参与”。通过互联网+古籍数字化,让更多人体验古籍的收集、整理、还原的过程,实现优秀中国传统文化的再现与保护;在古籍中寻找现代,增强中国传统文化的传承价值和受众范围,推动民族发展,实现中国梦这一伟大目标。
参考文献:
[1]王斌君,王靖亚,杜凯选,韩宇.验证码技术的攻防对策研究.计算机应用研究, Application Research of Computers,2013,009
[2]洪伟铭.武汉科技学院学报, Journal of Wuhan Institute of Science and Technology,2007,004
[3]王涛,顾新.知识网络的结构及其知识活动分析.图书情报工作, Library and Information Service,2011,016
[4]古籍数字化.百度百科.http://baike.baidu.com/view/4360427.htm
[5]互联网+.百度百科.http://baike.baidu.com/view/10991568.htm
[6]陈阳.中文古籍数字化的成果与存在问题.出版科学
【“互联网+”时代的古籍数字化新思路论文】相关文章:
互联网时代的审美与艺术论文06-11
数字化时代背景下美术教育论文(精选8篇)02-02
物流信息化新思路论文11-17
毕业论文开题报告创新思路11-23
班级管理工作新思路论文11-20
工程材料实验课程革新思路论文11-10
“互联网+”时代产业转型思维03-10
刍观数字化时代的影视制作03-01
远程教育与传统农业教育的新思路论文12-03