一种基于人机结合思想的书本式地方文献索引编制方法

时间:2024-08-25 13:22:45 计算机毕业论文 我要投稿
  • 相关推荐

一种基于人机结合思想的书本式地方文献索引编制方法


  地方文献以其地名、人名、机构名等专有名词术语众多而一直是索引编制的难点。对于文字数量数百万乃至上千万的地方文献而言,若要达到满足读者检索要求的标引深度,则索引制作的工作量就会急剧增加。如果纯用手工制作,不仅在信息的处理过程中容易产生差错,且费时费力。为了解决这一矛盾,降低索引编制成本,需要引入计算机信息处理技术。以下我们以在《杭州市志·索引》编制过程中开发的计算机辅助索引软件(CAIC1.0Beta)为例,就详细说明这一基于人机结合思想的地方文献索引编制方法。

1 现 状

目前,运用计算机信息处理技术来进行汉语文献索引编制的方法一般分为两大类:一种为基本以自动标引、索引为主的方法,其中汉语自动标引法常见的有词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等;在汉语索引法上则多采用题名关键词抽词索引法、主题词表选词索引法、职能符号标引索引法等。这些方法都在一定程度上解决了汉语文献标引和索引的问题,但由于汉语语言现象的复杂性,此工作基本都在文献题名这一层次上展开,至于针对文献全文的智能标引和索引尚处于探索阶段。而且,这些方法需要具备相当专业的计算机、语言学、文献学知识,并且相关的专用软件获取成本极高。另一个常用方法是人机结合、以人为主的方法,主要为采用诸如Foxpro MicrosoftAccess据库软件来编制。这种方法具有技术要求低、使用方便的特性。但这仅是一个以人工为主、辅以计算机技术的方案,并且参照系统即关键词之间的相互关系(见、参见)不能直接在上述数据库软件中得到表达和转移,因此索引库的生成无法直接应用参照系统,编制者将不得不依靠手工来进行,这是一个非常繁琐而且极易导致差错的工作。

2 解决方案的系统设计

方志作为地方文献的一个重要门类,其数量庞大,包含了一个区域的自然、政治、经济、文化、社会、军事等信息,有地方百科全书之称,具有极高的使用价值。为此,我们在实践中以《杭州市志·索引》作为地方文献的样本,对此进行索引的编制。其编制目标是一部分析内容的书本式关键词索引,其标引范围为全志中的正文、附录、图、表格、照片,标引对象为人物、机构、地名以及其他一切具有检索价值的各类事物、事件和活动。

对于一个优秀的索引而言,确定适合的标引、索引方案和参照系统是至关重要的,也是本索引编制解决方案首先要解决的问题。因此,在系统设计过程中,我们考虑了地方文献的特点和客观实际,分析上述方法的利弊,制订了以下的编制思路。 

2.1 标引方案 以实现的手段划分,可分为人工标引和自动标引。自动标引又可分为自动 抽词标引和赋词标引。自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献的主题内容。如果在自动标引过程中,使用的标引词来自于预先编制好的词表,则称之为自动赋词标引。对于计算机而言,针对汉语的自动抽词主要困难在于自动分词以及选取标引词的标准,而自动抽词标引的标准很大程度上是建立在词频统计的基础上的。就方志这一类地方文献而言,如果一些人名、地名在文献中只出现数次乃至一次的话,就很有可能不被标引,这会导致大量有价值的信息不能被检索到。而如果放低词频标准,则相关的标引词数量会急剧增多,书本式索引的篇幅会相当庞大。而自动赋词标引又依赖于词表,由于方志的地域性,这样一个包含有大量地方独特的人名、机构名和地方特色事物的词表一般都没有建立,因此无从根据词表来进行自动标引。

由于地方文献的编纂者或研究者对于文献内容比较熟悉,可以准确地分析主题内容,并抽取相应的关键词予以标引。因此,采用由他们来进行人工标引的方法,应该是方便和切合实际操作情况的策略。 

2.2 索引方案 索引款目的自动生成目前已经有很多实际应用的方案,如链式索引法(ChainIndexing)、选择组合排列索引法SLIC)、挂接主题索引法(ASI)、保留上下文索引法(PRECIS)等,这些基于计算机的索引法无一例外地运用了轮排或循环技术,对于计算机来说只要设定好索引法的原则后,工作是相当简单的。但是这种方法会导致索引款目急剧增多的后果,因此这种对于专业性文献检索工具而言是十分适合的方法,运用到地方文献上时,特别是如方志一类篇量较大的文献上时,就要承担索引篇幅大幅增加印刷成本提高所带来的危险。基于这个因素,我们认为在方志索引上应该采取对于绝大部分的索引词不进行轮排,只对极个别的主标目和副标目进行轮排的索引方案,以最小的代价来实现相对高的查全率。 

2.3 参照系统生成 是否设置参照系统是衡量索引系统质量的重要指标之一。而为了提高查全率,也需要我们设置参照系统。参照系统由主标目词和见参照(seereference)、参见参照(seeaisoreference)组成,从而保证了索引的整体性和系统性。因此,我们认为在没有现成词表的前提下,运用计算机技术结合人工干预来生成参照系统应该是软件追求的目标。

  2.4 编程语言的选择 由于直接运用Foxpro数据库技术在款目地址码归并和参照系统生成上的困难,因此采用通用编程语言是理想的选择。Delphi为一种面向对象的可视应用程序开发工具,与其他语言相比,它提供了一种快速的编译器,优化编译模式在很大程度上提高了代码质量和运行稳定性,所以这种语言一直受到专业人士的青睐。同时,Delphi特别对于数据库的体系结构提供了强大的支撑,Delphi还允许开发者将应用程序作为单一的.exe文件提供给终端用户,这样就减少了可执行文件在运行时对于其他文件或DLL(动态链接文件)的依赖。因此我们以Delphi为系统前台,以MicrosoftAccess为后台数据库存储原始信息,来编制索引计算机辅助编制系统。

3 本方案的技术实现 

3.1 数据结构 本软件数据库包含三个主要的数据表:a 主表(标引词库)。该表用来储存从方志文献中抽取的关键词和诸如卷号、页码、体裁、参照关系等属性,以及一些用于操作管理的信息。其中的记录需要索引编制者人工输入。为了方便数据的录入工作,一般可按照文献的页码顺序依次输入。b 关键词表。该表依据主表表达的各标引词之间的参照关系,由程序自动生成。此表是软件下一步进行索引合成的依据。c 索引正文数据表。该表用来储存关键词及其地址码(卷号、页码),可用来最后输出索引正文格式的文本文件。

  3.2 程序功能(主控界面见图1)

本软件具备信息采集;信息处理;信息输出三大功能。

3.2.1 信息采集功能。主要是由索引编制者将标引词(

一种基于人机结合思想的书本式地方文献索引编制方法

【一种基于人机结合思想的书本式地方文献索引编制方法】相关文章:

浅议地方文献报刊索引工作03-20

地方文献书目的编制及它的社会价值03-18

地方文献目录初探03-20

地方文献的搜集与整理03-19

一种基于区域特性选择与加权平均相结合的遥感图像融合方法11-22

基于嵌入式思想的小波图像压缩研究03-20

地方文献整序研究12-05

家谱-不可忽视的地方文献03-18

地方文献工作刍议03-18