- 相关推荐
文件自动分类系统Delphi
毕业论文
文件自动分类系统
摘要:随着网络信息的迅猛发展,信息分类已经成为人们获取有用信息不可缺少的工具,文件自动分类系统是信息分类的重要研究方向,它是指在给定的分类体系下,根据文件的内容自动判别文件类别的过程。
目前,向量空间模型是进行大规模文件处理的最佳模型,论文首先对向量空间模型进行了研究和探讨,包括:向量空间模型的基本概念、特征项的选择、特征项的提取算法等等。
然后,本文介绍了几种常用的基于向量空间模型的文件分类算法,同时描述了具体的算法步骤。
针对训练样本收集整理工作困难的问题,本文重点探讨了文件分类算法结合的可能性,并具体提出了1种实际可行的的文件分类系统的设计方法,该分类系统由训练过程、分类过程两部分组成,系统采用细致的模块化设计,具有很强的扩展性和灵活性。在本文提出并实现的文件分类系统上,进行了测试工作,并得到了严格的实验数据。
关键词:文件分类;向量空间模型;特征项的提取;特征项的选择
Automatic classification of documents system
ABSTRACT: In recent years , information categorization turns more and more important for us to get useful information . File Categorization, i.e. automated assigning files to predefined categories based on their contents, is a task of increasing importance.
Now, Vector Space Model (VSM) is the best model for large scale of file processing. Firstly, We discuss the key techniques of VSM, including: basic conception of VSM, Feature Selection and Feature Extraction.
The second part is the introduction to several common File Categorization methods and the algorithms are presented in detail.
In many important file classification problems, acquiring class labels for training documents is costly. This paper show that the accuracy of file classifiers trained with a small number of labeled documents can be improved by using VSM methods. The proposed classification system is divided into two parts: training procedure and classifying procedure . The system has good scalability and flexibility. Based on the file classification system, we have done much work on testing and have got much precise data.
Keywords: File Classification;Vector Space Model; Feature Selection; Feature Extraction
目录
1 前言 1
1.1 文件分类系统的问题描述 1
1.2 系统概述 1
1.3 文本分类系统的研究目的和意义 2
1.4 论文的主要内容 3
1.4.1研究内容 3
1.4.2本文的组织 3
2.发展现状及相关技术、工具介绍 5
2.1 系统发展现状 5
2.2 Delphi的概述 5
2.3 Delphi开发数据库应用程序 9
2.4 Delphi应用程序框架和设计 9
2.5 Delphi多媒体应用程序 10
3.系统的总体设计 11
3.1 系统需求分析 11
3.2 设计的基本思想 11
3.3 系统的结构设计 11
3.4 文件分类关键技术 13
3.5 系统开发环境 18
3.6 运行环境 19
4.系统的结构与实现 20
4.1 功能模块的实现和程序框图 20
4.1.1 创建1个工程 20
4.1.2 语料库维护模块 20
4.1.4 特征提取 21
4.1.5 系统流程 22
4.1.6 文件分类模块 23
4.1.7 文件分类流程 24
4.2 测试结果 25
4.3运行结果 28
5.结论和展望 29
致 谢 30
参考文献 31
附录 32
1 前言
210世纪910年代以来,Internet 以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。信息的高速增长迫切要求信息处理技术的不断进步,文本分类系统是近年来信息处理领域的1个很重要的方向[10]。它能够依据文本的语义将大量的文件自动分门别类,从而更好地帮助人们把握文本信息。
本章将简单地介绍文件分类课题,讨论文件分类系统的研究意义及可能的应用范围,并观察了文件分类系统当前的研究现状,最后罗列了本文的结构和主要内容。
1.1文件分类系统的问题描述
文件自动分类是数值分类学与信息处理技术相结合而产生的研究方向。在最初的分类学中,人们往往通过经验和专业知识对事物进行定性分析,很少使用数学工具。随着信息的不断增长,信息之间的关系也日益复杂,从而导致分类程度越来越细,分类规模也越来越大,这时仅仅依靠定性分析将无法满足要求,于是人们在分类过程中引入了数学工具,使用统计、人工智能等各种方法处理信息,从而形成了数值分类学(Numerical Taxology),也大大推动了信息处理技术前进的步伐[3]。
1.2 系统概述
系统可对文件集进行有序的组织,即把相似的、相关主题的文件组织在1起,从而为用户提供更高效的搜索与更准确的查询结果。除了作为文件集的组织工具,文件分类系统还有更广泛的应用:
① 电子会议:通过对与会者意见、建议进行分类以确定进1步讨论的主题。
② 邮件分类:对用户收到的电子邮件按主题进行分类。
③ 信息过滤:根据用户的要求,将相关文件分配给可能感兴趣的用户。
文件分类系统的实现通常有统计方法与知识工程方法两种技术。知识工程方法必须编制大量的推理规则,费时费力,代价很高,因而不大适用于复杂的系统。而统计方法的实现较为简单,且在实际应用中表现出良好的性能,因此得到了广泛的应用。系统采用了基于概率统计的方法。
【文件自动分类系统Delphi】相关文章:
探讨消防自动喷水灭火系统08-25
浅析自动控制系统04-19
配网调度自动化系统方案构建05-22
配网调度自动化系统方案构建11-10
配网调度自动化系统方案构建论文05-14
智能型校园教室灯光自动控制系统05-11
电力系统配网自动化技术探索论文04-15
谈电力系统配网自动化技术及应用06-14