- 相关推荐
CPM搜索引擎的设计与实现
毕业论文
目录
摘要 2
前 言 4
1 概述 5
1.1 搜索引擎的概念 5
1.2 1些著名的搜索引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天网 7
1.3 典型WEB搜索引擎工作原理 7
1.4 CPM搜索引擎工作原理 9
2 CPM搜索总体设计 10
2.1基本要求 10
2.2 体系结构规划分析 11
2.3 各模块设计策略分析 11
2.3.1 网页搜集 11
2.3.2 预处理 13
2.3.3 查询服务 14
2.4 体系结构 16
3 网页搜集模块的设计与实现 18
3.1 超文本传输协议 18
3.2 网络蜘蛛原理 19
3.3 网络蜘蛛的类结构 20
3.4 CSPIDERTHREAD类 21
3.5 网络蜘蛛爬取策略 26
3.6 控制对1个站点并发搜索线程的数目 26
3.7 数据库设计 26
4 预处理模块的设计与实现 28
4.1 分析网页 28
4.1.1 分析网页内容 28
4.1.2 获取网页所有链接URL 29
4.3 网页重复搜集的避免 30
4.4 网页重要程度确定 31
4.5 中文分词 31
4.5.1 算法介绍 31
4.5.2 正向减字最大匹配法 33
4.5.3 分词系统实现 35
5 查询服务模块设计与实现 40
5.1 查询服务系统结构 40
5.2 查询结果显示 41
5.3 用户界面 41
5.4 针对查询服务对分词系统的改进 43
6 结束语 44
致谢 46
参 考 文 献 47
附录 48
1 网络蜘蛛程序与数据库接口实现 48
2 分词系统对文章处理的函数实现 49
CPM搜索引擎的设计与实现
摘要:本文论述了1个小型搜索引擎(CPM搜索)系统的设计原理、设计思想及具体的实现过程,对在设计过程中涉及到的关键算法作了具体分析和介绍,并对各个模块的架构以及设计思想和设计过程作了详细阐述。该系统主要包括3个模块:网页搜集、预处理和查询服务。网页搜集和预处理模块采用VC++开发 ,实现了抢先式多线程网络蜘蛛程序和中文分词系统。查询服务模块实现了基于ASP的Web服务系统。
CPM搜索是个人毕业设计做的1个小型搜索引擎系统,设计的目的就是让它足够小,但是又让它具备完整的搜索服务功能。便于任何1个对搜索引擎感兴趣的人可以利用自己有限的硬件资源(如自己的台式机)搭建,实现小型搜索服务,如校园搜索。
关键字:网络蜘蛛;中文分词;网页重要程度;网页索引词;动态库
The Design And Realization of CPM Search Engine
Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.
KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries
包括:毕业论文 任务书 没有源代码
【CPM搜索引擎的设计与实现】相关文章:
都市频道制作网的设计与实现05-29
提高网站在Google中的排名-面向搜索引擎的网站设计05-28
城市旅游网站的设计与实现论文(精选6篇)05-07
浅探网络环境下搜索引擎的使用05-13
基于minigui的网真机界面的实现08-05
构筑企业数据中心 实现理性分析决策06-04
如何通过内部控制实现企业持续性发展05-21
利用电力线实现住宅智能化06-13
企业法律风险防范体系建立的原因及实现路径08-06