- 相关推荐
基于聚类分析的数据挖掘方法
毕业论文
基于聚类分析的数据挖掘方法
目录
前言 1
1 相关理论 2
1.1 数据挖掘(DATA MINING)理论 2
1.1.1 概念 2
1.1.2 数据挖掘的任务 2
1.1.3 数据挖掘的应用 3
1.1.4 数据挖掘的发展现状 4
1.2 聚类(CLUSTERING)理论 5
1.2.1概念 5
1.2.2聚类算法的分类 5
1.2.3分割聚类方法 6
1.2.4聚类算法的应用 6
1.3 WEB数据挖掘理论 7
1.3.1 文本检索概念 7
1.3.2 Web数据挖掘概念 8
1.3.3 Web数据挖掘工作原理 8
1.3.4 Web挖掘分类及各自的研究现状及发展 9
1.4 ASP理论 11
1.4.1概念 11
1.4.2 ASP服务器(IIS) 12
1.4.3 ASP程序的发布与执行 13
1.4.4 ASP的内置对象 13
1.5 数据库理论 14
1.5.1 SQL概念 14
1.5.2 Microsoft Access 2003数据库介绍 15
1.5.3 Access数据库的安全性 15
2 需求分析 17
2.1 任务概述 17
2.1.1研究背景 17
2.1.2问题提出 17
2.1.3研究现状 17
2.1.4研究目标 18
2.2 数据需求 18
2.2.1静态数据 18
2.2.2动态数据 19
2.2.3数据库描述 19
2.2.4数据采集 19
2.3 功能需求 19
2.4 性能需求 19
2.4.1数据精确度需求 19
2.4.2适应性需求 20
2.5 运行需求 20
2.5.1用户界面 20
2.5.2运行环境 21
3 概要设计 22
3.1 总体设计 22
3.1.1总体结构 22
3.1.2处理流程 22
3.1.3模块设计 24
3.2 接口设计 26
3.2.1外部接口 26
3.2.2内部接口 26
4 详细设计 27
4.1 系统结构 27
4.1.1系统框架 27
4.1.2数据流图 28
4.2 模块详细设计 28
4.2.1人机交互模块 28
4.2.2聚类分析模块 31
4.2.3数据库模块 33
4.3 数据字典 34
5 编码与实现 36
5.1 人机交互模块实现 36
5.1.1数据库连接部分 36
5.1.2查询匹配部分 37
5.1.3结果显示部分 37
5.2 聚类模块实现 38
5.2.1分词部分 38
5.2.2文本向量空间模型部分 39
5.2.3聚类部分 40
5.3 数据库模块实现 41
5.3.1网络蜘蛛(spider) 41
5.3.2数据库表 41
6 性能测试与分析 41
6.1 测试实例的研究与选择 41
6.2 测试环境与测试条件 41
6.2.1测试环境 41
6.2.2 Web服务器的安装 41
6.3 实例测试 43
结束语 45
参考文献 46
致谢 47
摘要 本设计课题为基于聚类分析的数据挖掘方法,为实现这1课题,我利用ASP技术,设计了1个Web搜索引擎。通过对搜索引擎的优化,使其对检索的初始结果进行聚类分析,返回结果给用户。从而也实现了“基于聚类分析的数据挖掘方法”这1目标。搜索引擎我设计了3个模块,分别为人机交互模块、聚类模块、数据库模块3个模块。人机交互模块通过ADO对象进行数据库连接。当用户输入关键字,检索数据库的网页数据,得到初始数据结果集,聚类模块对这些结果进行聚类分析,再把聚类结果返回给用户。由于Web文本是无结构或半结构化的,进行聚类分析之前要对文本建立向量空间。建立向量空间模型,首先对文本分词,再扫描文本提取特征值,计算这些特征值的权重,依据文本相似度对文本进行聚类,聚类算法采用k-means算法。最后把结果返回给用户。数据库模块设计了两个表,1个保存网页数据,另1个表是分词时所需要用到的表,数据的获取,由开源网络蜘蛛执行。通过设计实现,基本实现了基于聚类分析的数据挖掘方法的初衷。
关键词 数据挖掘;聚类分析;搜索引擎;文本向量
The method of Data Mining Based on Clustering Analysis
Abstract this design concentrates on data mining method which based on clustering analysis. In order to realize this task, I design a web search engine with the technique of ASP. From optimizing the search engine, the early results can be proceeded clustering analysis. This can make the similar results in a cluster. Finally, the search engine returns these results to the user. Also, from this, I can give my voice to the "The method of Data Mining Based on Clustering Analysis ". The search engine composes with the module of user, the module of clustering and the module of database. The module of user connect database with the object of ADO. After users enter the key words and recall the web page data of database, the user could get the initial results. The module of clustering clusters these results, and returns the results to the user. Because web text editing is non-structure or half-structure, vector space should be established for text editing before carry out clustering. In order to establish vector space model, the words should be extracted from the text editing firstly. Then the trait value should be extracted after the scanning of the text editing. According to the similar sign, the results make together. The method bases on k-means. Finally, return the results to the user. In the module of database, I design two tables. One is a data of web; the other is a dictionary table. From a spider, I can get the web data on the Internet and save this data to the database. From this design, I carry out the method of data mining based on clustering. .
Key words Data Mining; Clustering; Search Engine; Text Vector
前言
网络和存储技术的迅猛发展,使数据的传播和积累速度不断提高,但当我们为拥有极其详尽的数据而欣喜的同时,也发现新的数据处理和提炼技术非常匮乏。面对日益庞大的数据资源,人们迫切需要更强有力的工具来“挖掘”其中有用的信息。数据挖掘就是针对这1要求而发展来的。
近年来, Internet 已成为计算机领域最热门的1项技术,Internet 的普及使人们可以突破空间、地域的限制,方便地共享资源。但在实际使用中,Web 网上庞大的数据量会给用户的信息查询带来极大的困难。鉴于此,各种搜索引擎应运而生,比较有名的有Yahoo 、Alta Vista、Google、百度、北大天网等,另外还有许多针对新闻、论坛、音乐、游戏等的搜索引擎。
现阶段网上大多数搜索工具都采用列表式目录链接和关键词查询的方式,只要在题名和文章中含有该关键词,则返回给用户,这样往往带来大量的无用信息,难以找到真正有用的内容。而现代社会的竞争趋势要求必须对Web 上大量复杂的信息进行实时地和深层次地分析,从中找出真正有价值的信息知识。因此,人们迫切感到需要1种新的技术,可以从Web 海量的数据中自动地、智能地抽取隐藏于这些数据中的知识。于是Web 挖掘作为数据挖掘技术和Web 的结合应运而生了。Web 挖掘不仅能够帮助人们迅速找到所需要的信息,还能挖掘出用户的潜在需求,主动向用户提供信息。理想的Web 挖掘可以在网络上实现阮冈纳赞的“图书馆5定律”,即在Web 上实现“信息是为了用的;每个用户有其信息;每个有用信息有其用户;节省用户的时间;网络是1个生长中的有机体”。如果把整个网络看成1个巨大的数字图书馆则理想的Web 挖掘就相当于图书馆员,是网络信息海洋的导航者,能够从Web 海量信息中找到有用的知识。由于目前Web 页面的重要信息主要集中在Web 的文本中,而聚类分析作为数据挖掘的1个重要功能,也能作为1个独立的工具来获得数据分布的情况。可以有效的对Web文本进行聚类,是检索度大大提高。
现在对搜索引擎进行聚类,普遍采用下面的方法:首先建立Web文本向量空间模型,把非结构化或半结构化的文本文档转换成结构化的向量空间模型(即把文本转化成数字表示的形式)。再对Web文本进行聚类。在搜索引擎应用中,常采用的聚类算法现阶段文本聚类以层次凝聚法(以G- HAC 算法为代表) 和平面划分法(以K- Means 算法为代表) 为主。此外也有研究工作者改进的聚类算法。
本文中,作者描述采用k-means算法设计的1个搜索引擎。通过聚类算法的应用,使搜索引擎检索精确度有了很大提高。但是由于作者的水平、时间有限,设计实现的功能不是很完善,本论文也存在1些缺点和错误,殷切希望老师批评指正。
【基于聚类分析的数据挖掘方法】相关文章:
旅游管理下数据挖掘运用论文11-18
基于顾客价值的需求,流动网挖掘策略分析06-04
旅游管理下数据挖掘运用论文6篇11-18
网络经济数据挖掘在工商管理中的应用论文07-29
谈基于互联网新模式的企业网络营销方法08-25
基于大数据企业管理会计面临的挑战和对策论文(精选7篇)04-29
局域网数据库环境下数据采集及处理05-08
试析基于胜任素质的薪酬模式构建01-03
基于战略治理的企业环境风险研究08-28