图书检索系统体系架构研究

时间:2022-12-05 12:25:33 松涛 系统架构师 我要投稿
  • 相关推荐

图书检索系统体系架构研究

  图书检索系统可以归纳为索引子系统、检索子系统、资源匹配子系统和资源子系统四大部分,每一个子系统在整个系统中都有着不可忽视的作用,各个子系统之间统筹合作完成图书信息的检索工作。 下面小编为大家准备了图书检索系统体系架构的文章,欢迎阅读。

图书检索系统体系架构研究

  1 图书信息检索系统评价指标

  信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是在较少消耗的情况下尽快、全面返回准确的结果。根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。本文主要研究信息检索系统的质量标准,质量标准主要通过查全率与查准率进行评价。

  查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

  查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

  查全率=[检出相关文献量/文献库内相关文献总量]×100% (1)

  查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

  查准率=[检出相关文献量/检出文献总量]×100% (2)

  查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。

  影响查全率的因素:从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

  影响查准率的因素:主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。

  2 信息检索系统体系架构

  一个完整的图书信息检索系统应当包括图书信息的预处理,图书信息的入库、用户检索接口、资源匹配、资源排序等部分,本文主要就以下几个部分进行阐述。

  2.1 索引子系统

  索引子系统主要完成的工作是对图书信息的入库工作,图书馆中信息资源具有完整的资源名,然而用户在搜索时是通过输入关键字来发现类似的资源,因此需要对信息资源进行预处理。主要通过对信息资源名构建倒排索引,通过建立关键词和信息资源名之间的邻接矩阵,如此则完成信息资源和关键词之间的关联性,用户可以通过关键词发现自身需要的相关联文档。

  2.2 查询子系统

  查询子系统主要提供给用户查询接口,用户通过输入检索关键词,查询子系统需要对用户的检索关键词进行分析,可能用户输入的关键词并非规范的形式,可能还存在着错误信息,或者是以字母形式输入,或者是以英文或者其它方式输入,查询子系统需要对输入的检索关键词进行消歧工作。

  2.3 资源匹配子系统

  资源匹配子系统主要根据用户的检索关键词在图书馆数据库资源中进行资源匹配,寻找和用户相关联的资源,资源匹配的方式有很多种,诸如采用完全匹配方式(即用户输入的关键词和数据库中资源完成匹配)、部分匹配方式(用户输入的关键词中部分信息和数据库中信息匹配成功)、语义匹配方式(用户输入的关键词与数据库中资源存在语义上的关联性)。

  2.4 资源排序子系统

  资源排序子系统主要根据用户的检索关键词对匹配完成的资源信息进行排序,按照资源的重要性和用户检索的相关联程度进行梯度排序,排序的原则有多种方式,诸如余弦相似度,向量相似度,Jaccard相似度,Dice相似度等多种方式,有些排序子系统根据现今流行的搜索引擎页面排序算法进行改进,并将改进的排序算法移植于图书信息检索系统中。

  拓展:基于图书馆管理系统的藏书剔除实践

  一、常用方法的藏书剔除

  常用的藏书剔除办法主要有主观判断法、书龄判断法、使用年限法等,其中主观判断法是藏书剔除最常用的方法之一,是馆员按照事先拟订的一系列相关的剔除标准(或准则),凭借自己的经验,直接在书架上剔除文献资料。面对的是知识内容千差万别、质量水平参差不齐的藏书,运用主观判断法进行藏书剔除的尺度很难把握。

  书龄判断法是根据图书年代进行藏书剔除的一种方法。可是相同书龄图书的利用率会相差甚远,单纯以年代决定藏书的去留,就有可能把一些有价值的、使用率高的旧书剔除出去,或者留下许多书龄较短、不符合读者需求的图书。

  文献寿命“半衰期”体现的是知识情报的老化与更新的基本规律,可以作为一线书库藏书剔除的一个参考依据。然而在实际工作中,量化某一馆藏是否超出其有效使用年限,或着超出了多少,都是很困难的。

  调查研究法是开展特定范围(读者、专家)的调查,并根据调查结果进行藏书剔除的一种方法。它过分注重代表范围内的即时需求,忽视馆藏体系整体的、长远的建设和发展。

  滞架时间是反映图书使用情况的一个客观标准,如果大量利用率很低的馆藏文献继续留在一线书库,会增加馆藏的承载负担和经济支出,增加读者查找和获取的时间。但如果图书没有放到规定位置,或者读者没有发现它,那么它自然没有被利用的记录,很可能就被选为剔除对象。

  目标比对法是根据资源建设目标进行藏书剔除的一种方法。然而,藏书体系也需要不断完善,这种方法有时会加大滞后的周期。

  上述方法从不同角度为藏书剔除提供依据,总体上说是各有千秋。有些时候,单独使用上述方法在时间、人力、质量等方面难以满足藏书剔除的需要,需要结合目标、摸索更先进、更科学、更合适的藏书剔除方法。

  二、图书馆管理系统发展概况

  图书馆管理系统,又称图书馆自动化管理系统,自国内图书馆开始运用图书馆自动化管理系统,到目前已经将传统的图书馆业务手工操作转变为计算机管理,从简单的单个模块管理提升到功能齐全和强大的集成系统,使图书馆的主要业务,包括采访、编目、流通、连续出版物管理、公共检索等,在一个书目数据库中得以实现。随着计算机和网络技术在我国的快速发展,图书馆管理系统全面普及,传统的人工工作逐项逐项地被计算机代替。图书馆管理系统本身从图书馆内部提供信息资源朝着馆际之间资源共享和信息资源的多媒体化[2—3]方向发展。图书馆管理系统实时显示图书的库存数量、种类,以及图书的借阅情况,有助于动态的分析和决策,提高了图书馆的管理水平,提高了工作效率。

  三、基于图书馆管理系统的藏书剔除

  在图书馆集成管理系统得到普遍应用的当前,依托各集成管理系统的功能,跟踪特定读者群,核实电子文献、各种数据库、虚拟馆藏的覆盖面、特色和利用情况。与对口院系、各专业尤其重点学科、基地建立长期的联系,掌握对口院系学科的专业设置、课程设置及学生和教师用书需求。根据入藏、流通、阅览统计,确定反映本馆利用状况的藏书周转基点,研究剔除一部分非本馆特色学科的文献、剔除一部分少人问津的文献,对藏书结构、满足率、利用率造成的影响。传统的藏书剔除工作也可以根据计划进度、一个库一个库、一类一类、持续不断地开展,形成一个经常性、制度化、规范化、以3~5年为周期的、按主题(或按类别)的藏书剔除制度。

  利用计算机很容易列出长期滞架文献的清单,但是要从这几十万条数据中判断出哪些图书应该在这一批剔除的确有困难。况且,判断馆藏图书是否有使用价值,使用频率的高低只是其中的一个方面,使用频率的高低并不一定与使用价值的大小同步,滞架书刊中不乏一些内容质量、及其时效性都是好的或比较好的书刊,不应属于剔除之列。因此必须启用专用的系统,把具体的量化指标限定条件输入计算机,如历年利用率要求、出版时间要求、复本数量要求、外观状态要求、修补次数要求等,其中连续利用率、出版时间、复本数量可以从数据库获得,外观状态和修补次数如果有记录以记录为准,没有记录则认定外观状态正常、修补次数为零。在计算机分类分类平台完成检索之后,记录符合条件的分类结果,生成一个符合量化指标的表单。面对学科知识千差万别、书品质量参差不齐的具体藏书,不是用几条原则标准就能决定取舍的,随时都可出现的一些实际问题。所以还需具体问题具体分析,还须对藏书进行逐类审查、逐种鉴别的,任何僵化的、一刀切的做法是不可取的,因此需要对拟剔除文献进行必要的复审。

  对于通过复核的拟剔文献,才可以分门别类交付工作人员把对应的文献逐一从架位上按顺序抽取出来,按顺序集中存放。下架后应设一道复核工序,即由复核人员对下架的剔除文献进行认真核对,以防止误剔、漏剔。同时,对获批下架文献进行相应的数据处理,把剔除文献的去向反映到相应的数据库,调整库位,生成新的排架号。

  藏书剔除的主要目的是为了提高藏书质量,让使用率高的藏书留在一线书库的开架书位上,方便读者取用,提高流通书位的利用率,控制开馆成本。斯坦利J斯洛特的相关研究表明:“当一个图书馆的核心藏书占该馆现有图书的72~84%时,可以保证满足99%的读者使用需求”,换句话说,如果一个图书馆将其现有藏书的16~28%图书予以剔除,会对1%的读者需求产生影响。所以储藏剔除不能将剔除文献轻率地抛弃,对尚有一定参考、利用价值的书刊,优先移至贮藏书库,密集排架,以为读者可能产生的特殊文献需求提供保障。通过对藏书剔除相关问题的研究、分析和解决,可从藏书是否符合读者群的需求、藏书分类是否恰当、藏书著录是否准确、藏书排架是否符合读者习惯等一个个侧面为馆员改进工作提供了非常重要的反馈信息,进而有利于修正和调整资源建设的方针和政策,有利于管理水平的提高。

  四、结束语

  藏书剔除是藏书建设的重要环节,在当前图书馆集成管理系统得到普遍应用的前提下,依托图书馆集成管理系统的功能,可为藏书剔除工作提供更客观、更准确的依据,并有效地保障藏书剔除的进度和质量。

【图书检索系统体系架构研究】相关文章:

Adobe认证考试体系10-28

戏剧的体系形式与流派12-21

IBM的人才发展体系03-20

我国劳动法体系的构成04-24

海尔物流与美的物流体系12-19

如何建立企业危机预防体系12-09

新西兰留学高中课程体系08-12

国际标准色彩体系有哪些11-11

嵌入式系统体系结构12-16