信息检索中概念术语的提取方法探析论文
随着网络技术的发展,网络信息越来越多,文本的数量也急剧增加,信息检索技术的出现满足了人们对需求信息的获取和使用。网络成为信息获取的来源和渠道之一,然而,从这些海量的文本中获取所需要的知识成为专家学者研究的热点。目前大多数的搜素引擎采用关键词匹配技术进行检索,现阶段学者将更多的目光投向新型的检索模式和方法,以改进搜索效果。在信息检索的经典模式中,用来描述一篇文档的一组具有代表性的关键词叫做术语。对于一篇文档而言,术语很可能包含了多个含义,而在不同的上下文中,术语的意义不同。一个术语或者词组会有多种意义,一个领域的特定概念是明确的,因而,当信息检索中,采用领域概念描述文档比术语更有意义。使用领域特定概念呈现在文档中比检索属于特定领域文档的术语更有用。可通过算法进行文档概念的抽取,利用这些描述文档内容的概念非传统的词条,词频进行检索,相对于传统的检索,减少了不少工作量,提高了检索精度。
1相关研究
信息检索也称为信息查找或信息搜索,1965年,Rocchio研究了在向量空间模型中把信息查询和术语重新加权相结合的经典技术,并在随后出版发行[1].Ide继承了Rocchio的研究,并提出了术语重新加权公式的变形[2].1976年,Robertson和sparkJoneS提出了概率模型[3],有关该模型的详细讨论见van-Rijsbergen的著作[4].1981年Wu和salton使用相关反馈来给从相关文档中提取出来的概念术语(用概率公式)重新加权,并用概念术语来检索信息[5],实验表明了这些方法能够提高检索的性能。
实验证明,提取文档的领域概念术语在信息检索过程中能够更加准确和高效。因此采用概率加权方式提取领域概念术语,并将本体纳入领域概念提取过程中,不仅解决了无词典情况下的概念术语自动提取研究,并且有更高的准确率。
2概念术语提取方法
概念的出现不是孤立存在。在一篇文档中,如果概念有较高的权重,那么这篇文档通常还会包含与概念相关的其他概念。如电至少有两个不同的意义:电荷和电费。如果在一篇文档中讨论电荷,那么这篇文档通常会包含如电流、电力等术语。而对于电费,文档中通常包含如支付、额度等术语。因此,概念术语提取算法就是通过查看概念和与之相关的概念来计算这一概念权重值。
每一篇文档都有一组术语和其对应的频率,将列表中的每一个术语映射到与之对应的概念以及计算当前文档中每个概念的权重是研究重点,因此本体发挥很重要的作用,文档中的术语都可以从本体中获得其相关的概念组。一个术语可以映射到一个或者多个概念,如上文提到,电可以映射到电荷、电费,本研究就是要从这些映射的概念中,找到最合适的特定领域的概念。
为了提取正确的概念,本研究涉及到相关概念。构建了简易的概念间关系网,这一概念关系网来自本体中的物理学领域的一部分概念图,如果这个术语的相关概念在文档中出现的次数越多,概念的权重就越高。该算法将文档中的术语表和频率作为输入,然后返回一个概念列表以及概念的权重。
领域概念提取算法如下:在一篇文档Γ的术语表里,ti表示每个术语,cij是从本体中获得的相关概念。每个相关概念cij的.权重就是cij·signfi-cance.cij·signficance最初作为术语ti的归一化频率,即ti·frequency.对于每个相关概念cij,该方法重在文档中相关概念rcp的出现。然后,针对与概念rcp对应的术语tp的产生,通过α归一化术语的频率来增量相关概念cij的权重。
signficance·cij=ti·frequency+α|tp·frequency.在这里,α就是相关概念的权重,在本实验中,将α=12.要获得领域概念术语,因而该算法将选取权重值最大的概念作为领域概念。
算法3.1:概念的提取以及概念权重输入:t1,t2,…,tn是文档Γ的领域术语列表;ti·frequency领域术语ti的归一化频率;Γ文档中标记的总数。
输出:c1,c2,…,cm概念列表和概念的权重ci·significance对领域术语ti归一化频率
3实验测试和分析
为了评价上文算法的性能,在搜索引擎(百度)中进行不同的查询并且收集了与查询相对应的前20篇文档。观察来检测与物理领域相关的文档并计算准确度。评估该算法,实验以相同的20篇文档作为输入,用概念列表和概念权重从输入的所有文档中过滤出领域文档。人为已经过滤出属于物理领域的文档。每一篇文档dj用概念向量c={c1,c2,…,cm}来表示。当且仅当概念ci的相关文档出现在文档中时,这个概念ci的权重值vi>0.对于查询词q,在物理领域,与之对应的概念就是cq,如果在文档中概念的权重值vq>0,那么这篇文档dj就被选取出来。通过该算法返回的过滤输出是人为进行验证并且用准确率和召回率评价该算法。
对于查询C,集合C包含了由搜索引擎返回的前20篇文档。从集合C中,人为标记出与查询C相关的文档集合F,集合R就表示人为所选取出来的相关文档,即标准文档,|R|就是集合F中元素的数量;对集合C中的相同文档进行进一步处理,其处理方式上面已经讨论过的使用领域文档和权重值进行过滤,过滤之后,生成一个个文档,就是算法所选取出来的文档,即机器文档A,|A|就是机器文档A中元素的数量。而且,|Ra|就是集合F和集合A的交集的文档数量。
对于输入的查询,这里准确率的计算是:运用了概念提取算法过滤出的文档中的相关文档数量|Ra|除以算法过滤出的文档数量|A|.对于输入查询,这里召回率的计算是:运用了概念提取算法过滤出的文档中的相关文档数量|Ra|除以没有运用概念提取算法的20篇文档中相关文档数量|R|.
输入查询12次,分别统计了20篇文档中相关文档的数量|R|(未用概念提取算法)、过滤后的文档数量|A|(概念提取方法)、过滤后的相关文档数量|Ra|(概念提取方法),根据得到的统计结果分别计算准确率(未用概念提取方法)、准确率%(概念提取方法)、召回率%(概念提取方法)。通过计算出了的准确率和召回率,未使用概念提取方法所得到的相关文档的准确率大部分在5%-40%之间,然而通过概念提取方法得到的准确率达到100%占据70%,其余的在60%-80%之间,召回率达到100%占据70%,其余的在70%-90%之间。通过实验表明,采用概念和概念的权重值过滤领域文档提高了信息检索的准确率。
结合本体的相关概念的领域概念术语自动提取方法,从实验中可以看出,利用本体获得术语的相关概念减轻了无词典带来的压力,并且该本体术语可以进行扩充,解决了领域概固定化等问题;采用相关概念提取领域概念,提高了准确率。仍存在不足,一方面概念提取算法还存在过滤掉了低频的概念,而对文档而言较重要的概念,另一方面还存在冗余概念因此,今后研究中将会完善算法。
【信息检索中概念术语的提取方法探析论文】相关文章: