多民族语言本体知识库构建技术文学论文

时间:2024-10-07 17:37:47 语言文学毕业论文 我要投稿
  • 相关推荐

多民族语言本体知识库构建技术文学论文

  摘 要:语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用。该文旨在描述统一标准、统一接口的多民族语言本体知识库的创建思路,以及包含的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语及少数民族语言在内的多民族语言语义本体的表示理论与方法等。

多民族语言本体知识库构建技术文学论文

  关键词:知识库;语义本体;词典扩充;本体学习

  1 前言

  我国是一个统一的多民族国家,55个少数民族中的53个民族都有自己的语言文字。这些语言文字与本民族生存发展息息相关。2009年国务院发表《中国的民族政策与各民族共同繁荣发展》白皮书中指出:“为了使少数民族群众共享信息化时代的成果,国家采取各种措施促进少数民族语言文字规范化、标准化和信息处理工作的健康发展。”本体(Ontology)[1]是对共享概念的正规、明确的表述。本体始于哲学概念,90年代初被引入人工智能后,作为一种能在语义和知识层面上描述信息系统的概念模型建模工具[2]。

  基于语义的本体库是实现跨语言信息检索、信息抽取、自动翻译等智能信息处理应用的重要基础,是智能文本信息处理的重要环节。为人们所熟知的本体库中文《知网》HowNet[3],是一个较为完整的以语言知识为基础的中文本体知识库。目前,《知网》已成为许多自然语言智能处理系统的基础资源。

  本体构建需要描述语言共性和个性信息。大量的语言研究说明,不同语言除具有个性差异外,还有共性因素。语言共性研究认为,语言间存在某种共同的普遍规律,称为“普遍语法”。为蒙、藏、维、哈、朝等民族语言以及汉语、英语构建统一标准的本体库,对于多民族语言智能信息处理应用将起到积极地推动作用。

  目前,多民族语言,除汉语外,均缺乏或没有本体知识库建设。进行统一标准和接口的多民族语言语义本体知识库的创建,意义主要表现在:(1)从技术方面看,将促进民族语言信息处理(Ethnic Language Processing)技术的发展,探索出一套把被充分研究的语言的处理技术转移到被较少研究的语言上移植方案,使自然语言处理(NaturalLanguage Processing)技术的应用更加广泛。

  (2)从科技发展方面看,本项目实施为多民族语言的智能信息处理应用提供重要的基础支撑。

  (3)从社会价值方面看,通过多民族语言信息技术服务于多民族的信息沟通和交流,将增强民族地区网络信息安全,有利于促进民族团结、构建多民族和谐社会。

  本文首先介绍了多民族语义本体库的构建思路,创建方法,详细描述多民族语言知识本体库包含内容。介绍多民族语言共性知识库中词汇语义知识的表示和抽取,各民族语言特有语法知识的表示和抽取等技术。

  2 相关工作

  20世纪90年代初期,国际计算机界举行了多次关于本体的专题研讨会,本体成为包括知识工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题,其主要原因在于本体使人与人、人与机器、机器与机器之间的交流建立在共识知识的基础上。目前中英文自然语言处理领域,已经有很多语义本体的研究成果,其中最突出的是WordNet和HowNet。

  英文本体WordNet[4]的词汇包括名词、动词、形容词、副词和功能词。每个词(更确切地说是词的一条意项)是一个网络节点。节点之间通过“同义关系”、“反义关系”、“上位关系”、“下位关系”、“部分—整体关系”、“形态关系”等联系在一起。目前,Word-Net已经分别建立了名词、动词、形容词和副词的四个相互独立的语义网络,包括约十万多个词项。

  中文本体HowNet[3]是揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识知识库,从1996年研发至今,已有汉语词项96 744条,多家科研单位研发基于HowNet知识表示的信息处理技术。但目前,查新还没有查到民族语言信息处理研究中,关于语义本体表示层面的相关研究内容。基于语义的本体知识库在文本处理、信息抽取、基于文本的数据挖掘、自动翻译中都有广泛的应用,合适的本体知识库将成为文本自动处理中的一个重要环节。

  总结多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,发现各民族语言之间的异同;研究和实现基于词汇语义的、包括汉语、英语、及多种少数民族语言在内的多民族语言语义本体的表示理论与方法,构建统一标准、统一接口的多语言语义概念本体知识库,将会为多民族语言的智能信息处理应用提供重要的基础支撑,加快民族语言信息处理的进程。

  3 多民族语言知识库构建

  本文将多语言知识库的建设作为研究的重点,为多语言信息处理的关键技术和应用研究提供更好的支持。为了实现上述目标,表达各民族语言的语义知识的多语言语义本体库和各民族语言语法知识库都是不可缺少的,拟构建的多民族语言知识库将这两种知识库融合在一起。

  3.1 多民族语言本体知识库

  与通常单语本体知识库不同,由于各民族语言间存在着一些共性的概念,如一个汉语词与其在其他语言中的译文对应同样的语义概念,同一概念在不同语言中具有相同的语法功能(比如动词同时需要施事者和受事者,或动词可接双宾语),且其常见搭配词可以在语义概念上一一对应。因此,多语本体知识库需要保存各民族语言在语法和语义上的一些共性信息,从而体现各语言的词汇在语义概念上的对应性,各语义概念在不同语言中语法行为的某种相似性,以及各语义概念之间的关联。这些共性知识可用于解决翻译和跨语言检索中的词义消歧,提供翻译模板辅助调序和目标语生成等问题。表示语言共性知识的本体库使用语义概念作为基本词条(在本体库中称为元素)。

  在这一过程中,有一个反复迭代、逐步求精的过程,而这种迭代体现在自动建立HowNet语义本体知识库需要用到一系列不同语言的分词词性标注工具的自动分析结果,而使用语义本体知识库和语义相似度分析可以解决分词词性标注过程中的一些歧义消歧现象,提高分词词性标注的性能。

  多语言语义本体知识库构建模型见图1。

  3.2 语言本体创建

  本体结构(Ontology Structure)是一个四元组O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示关系集合;Hc表示概念层次,即概念间的分类关系(Taxonomy Relation);Rel表示概念间的非分类关系(Non-taxonomy Relation)。

  本文以概念和概念的层次分类为基础,适当增加概念之间的联系与推理,作为多民族语言语义本体的体系结构。本文借鉴《知网》的知识定义,结合在多民族语言信息处理当中的应用,确定本体库的结构。

  主要包含以下内容:

  ①基本属性a)语义编码 b)上下位元素 c)词类信息②概念属性a)义原 b)搭配概念③共性语法信息在设计该本体库结构中,充分考虑了扩展性因素,并将信息处理需要用到的信息尽量并入该本体库当中,作为元信息以最大化地辅助其他信息处理过程。

  ④语法知识库

  各民族语言也具有自己的特性知识,充分利用这些信息对机器翻译调序、目标语言生成和跨语言信息检索都有重要意义。这部分语言的特性知识一般表现在语法层面,因此本体知识库需要另一个部分———各民族语言特有的语法知识库作为补充。

  蒙藏维语和汉语语法知识库结构:词法信息:词类,变格,变元等信息,时态、人称、数等信息;

  句法信息:句式或次范畴化信息,主谓宾等信息。

  ⑤为了自动建设包含上述多语言共性知识和各民族语言语法知识的知识库,本课题还需要完成两个任务:一是为知识库的每种词条设计属性结构,使每种词条的结构能够充分表达其对应的知识,并使其易于应用;二是在获得合理的知识库结构的基础上,从语料库中通过统计或规则的方法学习每一词条的各种属性的取值。

  3.3 语义本体概念的词典扩充

  语义本体的创建是耗时耗力的艰苦工作,需要语言学家、知识工程师和信息处理人员合作完成。

  目前的语义本体的创建,有手工创建和自动生成两种策略。手工创建本体人工工作是主体,最多增加一些本体创建的辅助工具,以方便和加快概念和关系获取的过程。完全手工创建的本体一般规模较小,无法应付海量的知识源。自动策略一般采用有监督或无监督的机器学习技术从文本语料中自动获取概念和关系,人工干预程度较低。

  为了自动构建描述多民族语言共同特点的本体知识库,我们首先需要一个具有较高准确率和覆盖率的双语词典。对于一个翻译系统,这样的词典也可以有效地提高翻译的准确性。然而,当前的民族语言和汉语之间的双语词典还不能很好地覆盖语料库中的文本。其主要原因如下:首先,这些词典是手工建立或只在一定规模语料之上建立起来的,这些语料并不能很好地覆盖所有的领域,因此有些词(比如领域专业术语)不会在词典中出现;而且当某个词具有一词多义现象时,具有领域偏置的词典可能会漏掉一些解释。第二,未登录词问题,其中有很大一部分是专有名词,如人名、地名、机构名、时间日期等,这些专有名词除了时间、日期可以通过规则进行翻译,其他词语在翻译中往往并无直接的规律可循。还有很多新词需要收入词典。

  解决上述问题的一个方法是在已有词典和语料的基础上,进行词典的自动扩充,包括根据上下文对齐关系扩充新词,以及采用特定方法识别术语和名实体并找到其对应的翻译等方法。目前,关于自动词典扩充的研究还不完善,且多民族语言的现有数据缺乏对齐语料、部分语言数据量很小等特点,现有的方法并不符合多民族语言信息处理的现状。因此需要提出针对多民族语言词语级信息处理的词典扩充方案。为了建立一个适用于翻译的双语词典,我们需要对以下问题进行研究:①在现有词典的基础上,根据上下文的共现信息进行逐步扩充。在词典扩充的过程中,可能会出现三种情况,第一,对应的双语端词语都是新词;第二,双语端词都在词典中出现,但词典中不包含两者的对应关系;第三,双语端有一端在词典中出现,另一端是新词,如一词多义现象和一词多译现象。其中第一、二种情况需要根据双语上下文共现一致性进行词典扩充,第三种情况可以利用单语言端上下文共现一致性进行同义词的挖掘。

  ②命名实体和术语的翻译往往有一定规律可循,例如命名实体等在不同语言表示之间具有读音的相似性。因此,我们需要研究如何利用读音等信息从语料中识别出名实体和术语并找到不同语言间的对应翻译。如蒙古文词是一个人名,用汉字标音时蒙古文中间的音节(ro)在汉字中没有,可用近似的汉字来标注,有三种写法:嘎日迪、嘎尔迪、嘎儒迪,这三种标注都算正确。

  ③词典会随着新语料的加入而不断增长,且新词当中名实体类型出现的频率最高。词典不断增长的问题使得词典扩充不可能一次性被解决,因此为了解决以上问题,我们将采用一种在线扩充方法,在当前词典的基础上,不断地从新语料中抽取新的对应关系加入到词典中,实现词典的不断更新。

  4 总结

  语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。本文描述了建设统一标准、统一接口的多民族语言本体知识库的思路,及需要研究的若干问题,例如:多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语、及多种少数民族语言在内的多民族语言语义本体的表示理论与方法等。

  语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用,具有极大的研究价值。

【多民族语言本体知识库构建技术文学论文】相关文章:

当代审美实践与文学本体论的构建10-16

当代审美实践与文学本体论的构建详细内容05-08

基于本体的教学知识库系统分析08-31

绿色建筑技术体系构建论文10-28

汉语言文学论文05-24

汉语言文学论文10-23

语言文学毕业论文精选10-24

语言文学毕业论文07-06

电影语言与文学语言的比较研究论文08-17

构建高职汉语言文学专业课程人才培养模式论文07-10