基于WEB文本挖掘的统计分析VB+ACCESS

时间：2024-08-07 17:21:23 计算机网络毕业论文我要投稿

相关推荐

毕业论文

基于WEB文本挖掘的统计分析
---用户兴趣建模与中文网页自动分类

摘要本文介绍了运用Web文本挖掘技术，在Windows平台上实现用户兴趣建模和智能网页推荐系统的方法和过程。首先简要介绍了目前国内外的研究动态和水平，然后介绍了兴趣模型的相关知识，主要包括：web文本挖掘的分类，web文本挖掘的静态和动态统计分析，兴趣模型的发现与建立，用户兴趣模型的获得与实现，中文分词技术等内容。在简单介绍现有算法的基础上，经过实践调查统计，根据课题的需要和实际情况，提出1种相对简单的用户兴趣模型的建立和实现的方法。并用VB 6.0 和Access 2003实现了相关功能。

关键词: Web文本挖掘; 网志分析；统计分析；用户兴趣模型; 中文分词

Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify

Abstract In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords：Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split

目录
1 前言 1
1.1 课题背景 1
1.2 国内外研究动态和水平 1
1.3 本文的主要工作 2
1.4 课题研究的意义 3
1.5 论文的大致结构 3
2 WEB文本挖掘 4
2.1 数据挖掘 4
2.1.1 WEB挖掘的概述及分类 4
2.1.2 Web 挖掘的任务 5
2.1.3 Web数据挖掘几个步骤 6
2.1.4 Web数据挖掘的分类 7
2.2 WEB 文本挖掘 9
3 兴趣模型的发现与建立 11
3.1 现有算法介绍 11
3.1.1 用户主动提供 11
3.1.2 相关反馈 12
3.1.3 现有兴趣发现算法的缺陷 13
3.2 静态和动态相结合的方法 13
3.2.1 Web访问动机的静态分析 14
3.2.2 Web访问动机的动态分析 17
3.3 结论与模型的建立 17
3.3.1 根据隐式反馈[6]建立和更新用户兴趣模型 17
4 用户兴趣模型获得与实现 22
4.1 COOKIES 22
4.1.1 Cookies的概述及属性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威胁 24
4.1.4 Cookies的作用 25
4.2 收藏夹分析 26
4.1.1 获取 “收藏夹”文件 26
4.1.2 收藏夹的目录结构 28
4.1.3 如何分析网志中的页面 28
4.3中文分词技术介绍 30
4.3.1 中文分词和对兴趣收集的重要意义 30
4.3.2 CSW 5.0 中分词组件简介 32
4.3.3本系统调用CSW5. DLL 示例 33
4.4 VB中的钩子 34
4.4.1 钩子的概述和分类 34
4.4.2 VB中钩子的实现 36
5 中文网页自动分类技术 38
5.1 文档自动分类算法的类型 38
5.2 实现中文网页自动分类的1般过程 39
5.3 影响自动分类的关键因素 40
5.3.1 分类体系 40
5.3.2 特征提取 41
5.3.3 分类算法介绍 41
6 系统设计与实现 42
6.1系统可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4进行可行性研究的方法 42
6.1.5设备 42
6.1.6 局限性 43
6.1.7 技术条件方面的可行性 43
6.1.8 社会因素方面的可行性 43
6.1.9 结论 43
6.2需求分析 43
6.2.1任务概述 43
6.2.2需求规定 44
6.2.3 数据管理 45
6.2.4 故障处理要求 45
6.2.5 运行环境规定 45
6.3总体设计 45
6.3.1 系统实现方案 45
6.3.2 功能模块分解 45
6.3.3 数据库设计 46
6.4详细设计 47
6.4.1 结构程序设计 47
6.4.2 人机界面设计 53
6.5系统实现 53
7 结论 54
致谢 55
参考文献 56
附录1 CSW 5.0分词软件DLL介绍 57
附录2 汉语词性对照表[北大标准/中科院标准] 61
附录3 部分程序源代码 63

1 前言
1.1 课题背景
    近年来，Internet的网络和应用都在以惊人的速度在发展。根据中国互联网络信息中心2003年1月公布的中国互联网络发展状况的统计数据，在中国，上网计算机总数达到2083万，上网用户总数达到5910万，WWW站点数约为371600个。而就全世界而言，上网用户数达到数亿。同时，各种各样的网络应用早己走进各行各业，尤其是远程教育、电子商务、搜索引擎等等。但是由于 Internet是1个开放、分布的信息空间，它本身所固有的 3个特点己经明显地阻碍了人们充分地使用 Internet上的信息资源:[1]（1） Internet上可利用的信息是无组织的，多种结构形式的，并且分布在全世界的各个站点上;（2）数据和服务的类型以及数量每天都在大量增加，因而信息可利用性和可靠性也在不断地变化;（3）由于信息源的动态性以及潜在的有用信息的更新和保存问题，信息常常是模糊的:有时甚至是错误的。由于上述原因，在 Internet上进行信息检索经常会出现“信息过载”，即网上的信息是海量和无组织的，易发生“资源迷向”，即用户不知道如何更加有效地利用资源等问题。
    人们迫切需要1些智能的和个性化的工Internet系统，能学习和了解用户的兴趣爱好，成为用户的助手或秘书，能帮助用户从浩如烟海的工Internet信息中快速而准确地搜索出他们感兴趣的内容:
能为用户提供主动的、最新的信息服务和推荐;能帮助用户实现个性化的远程学习等。而这些系统的基础都离不开1个 “个性化的用户兴趣模型”。
    电子商务(E-Business)发展到现在，它提供的高效和安全的服务，让人们体会到了Internet应用的神奇。但是，电子商务服务提供商和用户同时对它的提出了新的要求：如何才能象现实生活中的商家和客户交流1样，商家为客户推荐适合其兴趣爱好的商品和服务，这在现实生活中，是靠商家与客户的多次不同形式的交流达到的，然而，通过什么的途径，能够在Internet上，在商家与客户没有见面的环境下达到这1点呢。根据用户显式反馈的信息，进行综合整理，也许是1条途径，但是这里面包含了太多的主观和不确定因素。隐式反馈成了人们关注的焦点，通过对用户静态的动态的兴趣体现，通过统计分析得到用户兴趣，从而为用户量身定制web服务和page推荐，当然，这不可避免地涉及到个人隐私问题。本课题就是在这样的背景下提出来的。

【基于WEB文本挖掘的统计分析VB+ACCESS】相关文章：

基于WEB的网络考试系统ASP+SQL03-08

基于粗糙集的文本分类研究03-03

基于Web的嵌入式数控系统实现03-07