自然语言检索中的概念控制

时间:2023-03-21 11:34:39 教育毕业论文 我要投稿
  • 相关推荐

自然语言检索中的概念控制

自然语言检索是信息检索中的一个类型。随着互联网的普及和发展,信息检索的最终用户日趋扩大,自然语言检索成为重要的发展趋势。
目前,自然语言检索系统采用的是模式匹配技术。所谓模式指的是关键词或索引词汇。模式匹配技术处理速度快,简单易行,但也有缺点。自然语言检索系统对同义词、近义词、多义词和其他一些与其相关的词语没有进行规范和统一,词间缺乏有机的联系。当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响检全率。自然语言检索系统的选词没有严格限制,词量过多过杂,这样会影响检准率,并且会过多地占用磁盘的存储空间,影响查询匹配的速度。要想解决这些问题,必须对自然语言查询做进一步的处理,也就是进行概念控制。

  1 概念控制及其实现基础

1.1 概念控制的目的
概念并不是孤立存在的,一个概念总是与其他概念之间存在着各种各样的关系,如上下位关系、同义关系、反义关系等。关键词也会出现一词多义、一义多词以及同一事物多种表述的情形。根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户提供相关的结果分析是概念控制的一个应用前景。例如,“体育”这一概念根据上下立类的关系可以细分为足球、排球、奥运会、亚运会等,单纯的字面匹配会漏检甚至误检很多与之相关的信息。通过概念控制就可以将一个上位类的概念扩展为多个子概念。体育新闻的检索就可以扩展为:体育新闻、球类(足球、篮球、排球)、田径运动、体育赛事(奥运会、亚运会、世界杯)等概念,同时对那些具有下位概念的词汇可以再次扩展,这样就大大地提高了检索效果。“计算机”和“电脑”是同一事物的不同表述,机械匹配的话就只能检索到有关“计算机”或“电脑”的信息,采用概念控制的相关方法可以将这些相同概念的词汇统一到检索匹配中,这样就扩大了检索面,提高了检全率。在自然语言检索系统中进行慨念控制,就是把信息检索从目前的基于关键词层面提高到基于知识(概念)层面,能够从概念意义层次上来认识和处理检索用户的请求,从而提高检全率和检准率。
1.2 概念控制的主要方法
目前虽然没有一个检索系统可以完全实现理想状态下的高层次的语义检索,但有些自然语言检索系统已经采用概念控制查询。主要的方法是利用知识体系建立概念间的关系进行查询扩展,深度匹配,优化检索效果。
概念控制的内容包括:提问句概念语义块的抽取,从提问句中切分出概念词或词组等语义单位;基于知识体系对抽取出的语义单元进行概念扩展;概念的组配,将选择出的各检索单位基于知识体系的组织信息转换成体现概念关系的逻辑表达式。
概念抽取不等同于分词处理,其中包括普通概念的识别和人名、地名、事件名等专有名词的识别,并进行概念提取。对于普通的概念字串采用逆向最长匹配算法(或正向最长匹配算法),并综合切割标记等分词手段切分就可以进行概念抽取。对于词典中未收录的概念词,可以采取基于句模、句子结构分析、词和词组构成规则、句内结构性标志字、标点符号等来进行切分。除切割标志外,已知的词也可作切割标记使用。
自然语言检索系统的本质是查询满足特定主题概念的文本,因此被检索的内容不是和提问句的字面匹配。对提问进行分析后抽取出的主要是概念或概念的组合,需要进行概念匹配,这就需要对检索句中的词进行概念扩展,即考虑提问句中词的同近义词、上下位词和关联词。可以通过知识体系保存同近义关系、上下位关系和其他关联关系,当处理用户检索需求时,通过查询知识体系可对提问句中的词按概念进行扩展。如“我国今天的体育新闻”,可以通过知识体系对“体育”进行扩展,查询包括“篮球”、“赛车”、“奥运会”、“世界杯”等方面的内容,“今天”一词指检索者进行检索时的日期,因此需通过规则将“今天”映射为检索时的时间,将“我国”扩展为“我国”V“中国”V“中华人民共和国”(知识体系中可能只存在“中国”和“中华人民共和国”之间的同义关系,没有“我国”这一词条)。
概念组配,按其内在逻辑关系,可分为限定组配和相交组配。限定组配将一个概念的内涵增加到另一个概念的内涵中,从而加深概念的内涵,缩小或限定了概念的外延。相交组配将具有共同的属概念、概念之间具有相交关系、外延部分重合的概念组合成一个新概念。在构成查询表达式时,基于知识体系的扩展词和原词间为“逻辑加”的关系。如“美丽”扩展为“美丽”V“漂亮”V……V“标志”。提问句中语义块间的关系通常为逻辑乘的关系。语义块间的概念组配通常存在如下逻辑关系:(1)主谓结构,描述的是一种陈述与被陈述的关系。(2)偏正结构,描述的是一种修饰与被修饰的关系。(3)动宾结构,描述的是一种作用和被作用的关系。(4)并列结构,描述的是一种成分间的并列关系[1]。主谓结构、偏正结构和动宾结构间为“逻辑乘”关系,并列结构为“逻辑加”关系。但通过对检索提问句进行分析后发现,部分并列结构在用户的检索概念中为“逻辑乘”关系,于是采用通过句模分析和指示标志来确定语义块间的“逻辑乘”或“逻辑加”关系。提问句语义块之间的“逻辑加”关系通常存在显式指示标志,如“或”等。分析传统的主、谓、宾、定、状、补六大成分与句型的关系,可以辅助获取语义块的逻辑关系。检索提问句的语义概念和提问句的结构紧密相关。需要分析谓语的性质、句子的结构,如“把”字、“被”字句等。
概念控制的3项关键技术中,概念扩展和概念组配都离不开知识体系的支持,知识体系的好坏直接关系到检索效果的优劣。
1.3 概念控制系统
国内外已有一些检索系统在不同程度上实现了概念控制,代表系统有首信搜索引擎、孙悟空、UMLS等。下面以UMLS为例进行介绍。

自然语言检索中的概念控制

【自然语言检索中的概念控制】相关文章:

国际视野中的管理咨询:概念与内涵界定05-29

浅述设立中公司的特征、存续时间及概念06-08

浅谈重要性概念在审计中的运用04-22

浅谈物流成本控制中的包装管理的论文06-05

双向CATV网中控制信令的传送05-29

论概念设计05-28

法律的概念性06-08

OC曲线与检验中犯第Ⅱ类错误的概率控制问题05-11

关于商誉概念演进的研究04-29

浅谈医学史的概念04-25