- 相关推荐
基于关键词组合向量模型的文本自动分类研究
[摘 要] 本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估方法。[关键词] 关键词组合 向量空间 自动分类 分类算法
近年来,以文本格式存储的海量信息出现在Internet、数字化图书馆及公司的Intranet上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标,而文本自动分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织及挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。
一、自动分类的种类和作用
自动分类就是用计算机系统代替人工对文献等对象进行分类,一般包括自动聚类和自动归类。自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的自动分类是指对网页的自动分类,包括网页的自动归类和自动聚类。
目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预。
二、问题描述
1.系统任务
简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
2.评估方法
我们使用评估文本分类系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:;查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:;准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。
3.词语向量空间模型的文本表示
目前,在信息处理方向上,文本的表示主要采用向量空间模型 (VSM)。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF~IDF公式,目前存在多种TF~IDF公式,一种比较普遍的TF~IDF公式为:;其中,为词t在文本中的权重,而为词t在文本中的词频,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。
4.词语向量空间模型的训练方法和分类算法
训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵方法,最近 K 邻居方法和贝叶斯方法等等。一般相似度定义公式为:;其中,di,dj为不同的文本,M为特征向量的维数,Wk为向量的第K维。
毕业论文搜集整理:
【基于关键词组合向量模型的文本自动分类研究】相关文章:
基于粗糙集的文本分类研究03-03
基于组合模型的防城港货物吞吐量预测研究03-07
基于战略系统的审计风险模型研究03-04
基于活动的日活动计划模型研究11-22
基于顾客价值的共生营销模型研究03-22
基于SDO的异构服务数据模型研究03-28
自动分标组合技术的研究和开发12-02
基于供应链管理的知识转移模型研究12-08
基于剩余收益RI的企业价值评估模型的研究03-21