- 相关推荐
用户访问模式挖掘及在电子商务中的应用
摘要:当今电子商务网站日益增多,网站所提供的功能和服务也越来越丰富,然而也存在不足。比如,提供的服务或信息分布不公道,未能充分考虑到用户的需求;信息的访问路径未能考虑到信息的重要性和普遍关注性等等。本文研究将集中在基于图结构的用户访问模式挖掘及其在电子商务中的应用上,通过对基于Web拓扑结构(图结构)挖掘用户访问模式的数据挖掘,可对已存在的Web站点的结构及站点内的页面进行调整和改善,方便地向浏览模式相似的用户组推荐其感爱好的主题相似的页面,使各类信息和服务以更有效的方式提供给用户。关键词:数据挖掘 Web日志挖掘 用户访问模式 Web拓扑结构
一、引言
近几年因特网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,逐渐渗透到人们的日常工作、生活及其它领域,它为用户提供了各种信息。然而,用户面对一堆杂乱无章的信息往往花费了大量的精力却无法找到理想的结果。如何有效得分析用户的需求,帮助用户从因特网的信息海洋中发现他们感爱好的信息和资源,已经成为一项迫切而重要的课题。解决这些题目的一个途径,就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。其中的Web日志挖掘可以把握用户在浏览站点时的行为,并且将挖掘出的用户访问模式应用于网站上,在改善Web站点的结构以及页面间的超链接结构,进步站点的服务质量等方面有重要的意义。
二、Web数据挖掘概述
(一)Web数据挖掘的定义及分类
Web数据挖掘我们这里采用一个更一般的定义:Web数据挖掘是指从与WWW相关的资源和行为中抽取感爱好的、有用的模式和隐含信息。
Web信息的多样性决定了Web挖掘任务的多样性,Web数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类,如图l所示:
(二)Web日志挖掘
Web日志挖掘也称Web使用挖掘,是指从Web使用数据中抽取用户访问模式的过程。
一般Web日志挖掘的过程分为以下三步:
1.数据预备:对Web日志内容进行预处理,删除无用数据,识别用户会话,完善访问路径。
2.模式识别:采用相应的数据挖掘算法,对预处理之后的数据进行挖掘,天生模式。
3.模式分析:排除模式识别中没有价值的规则或模式,将有价值的模式提取出来。
三、基于图结构的Web日志挖掘
(一)数据预备
1.数据源
目前的Web日志挖掘的数据源主要是Web服务器日志文件,它记录了用户访问站点的数据,每当站点上的页面被访问一次,Web服务器就在日志中增加一条相应的记录。服务器上的日志不仅具体记录了站点访问者的浏览行为,而且汇集了访问同一站点的多个访问者的行为。
2.数据预处理
在Web日志挖掘中,主要分析的数据源是服务器日志,但是由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难。因此要对日志数据进行预处理主要包括以下步骤:
数据转换:将原始日志文件导进数据库中。
数据清理:删除与日志分析目的无关的记录。
用户识别:将用户和请求的页面相关联。
会话识别:将用户在一段时间内的请求页面分解成能反映实际浏览习惯的用户会话。
路径补充:将本地或者代理服务器中缓存而没有被日志记录的请求页面增加到会话中。
(二)基于图结构的用户访问模式挖掘
本文中的算法在现有的挖掘关联规则算法的基础上上进行延伸,并且在支持度计算,候选路径的产生和剪除阶段时考虑网站的图结构。这样,在候选集的天生和剪除过程中减少了候选集的数目,可进步发现模式的精确性和效率,并且避免了“交易变质”的题目。首先,分析站点结构,并给出“图”的相关定义和定理。其次,对现有的Web日志挖掘方法进行简单的先容和分析。接着,给出基于图结构的用户访问模式挖掘算法。
1.站点结构的分析
每个Web网站并不是平面结构,而是有自己的特定结构。我们可将Web结构看作是一个多层的模型,每个层面包含很多页面,这些页面上有很多文本、图片、音乐等页面元素组成,它们可以链接本层面或其他层面的页面元素。
Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点v的进边表示对v的引用,出边表示v引用了其它的页面。 所以Web页面之间的超链接揭示了Web结构。通过对Web结构的分析可对Web数据挖掘有很大的帮助,如图4,某站点拓扑结构示例图。
2.基于图结构的用户访问模式挖掘算法
Web用户访问模式的挖掘过程可描述为:把用户会话序列看成是对图的遍历,结合数据库和Web图结构确定访问的最大向前路径。从中找出支持度大于阈值的所有子路径即频繁遍历路径,最后确定最大频繁遍历路径。基于图结构的用户访问模式的挖掘和现有方法最大的不同是,访问模式也被以为是图遍历,而不是二叉树访问顺序,即用户会话序列是图中的路径。
(1)天生最大向前路径
Web用户访问模式的挖掘过程的第一步是把用户会话序列看成是对图的遍历,结合数据库和Web图结构确定访问的最大向前路径。所谓最大向前路径(MFP)是指从起始页开始到回溯发生前,用户连续访问的最大页面序列。
假设
①依次读取页面xi(1≤i≤m)。
②若Xi不存在于{y1,…,y-1}中,即xi是没有访问过的页面,则将xi作为yj加进当前可能的MFP中,f1ag标记为前进,转(1)。
③否则若xi=yk(1≤k
假如flag标明为回退,删除{yk i,…,yj-1}后转(1)。
④当处理到用户会话中的最后一页时,假如f1ag标志仍-标明向前,则此时的{y1,…,yj 1}是该会话中的最后一个MFP。 此算法的形式化描述如下:
for aU Sn∈S //依次处理绘画文件中的每个会话Sn1
y1=x1;j=2;i=2 f1ag=YES; ////初始化页面序列,将遍历方向设置为前进;
while(i≤m)//循环处理用户会话Sn中每个页面;
{
if(xi==yk)for some 1≤k
频繁遍历路径是指MFP中满足一定支持度的子路径序列(不是连续页面序列)。频繁遍历路径的确定能用像Aprior算法中的逐层搜索算法实现。在算法的每步中,都要扫描数据库,并计算所有的候选集的支持度。每步中的所有候选集都有相同的长度。在每个过程的结束,天生候选集Ck,然后计算Ck中每个候选项的支持度并剪除小于支持度阈值的候选项,以减少下一循环的扫描时间,由此频繁遍历路径集合Lk被确定,并用于在下个步中候选集的计算。算法的一般结构如下。支持度的最小值记为minSupport,Ck表示所有长度为k的候选集,Lk表示所有长度为k的频繁遍历路径的集合,D表示数据库,G表示图。
算法4-逐层搜索确定图G中的频繁遍历路径 尽管逐层搜索算法的基本结构相似于Apriori,但是它的组成部分(i)候选集支持度计算(ii)产生下一阶段的候选集,明显不同于Apriori,由于,该算法中的候选集必须是图中的路径。该算法基于定理4执行Apriori剪除。对于支持度计算(第6,7步),基于子路径的数目。
在图4的例子中,
四、Web日志挖掘的应用
从Web使用数据中挖掘出的访问模式可以应用到广阔的领域,以下仅先容在电子商务中的应用。
(一)个性化服务
根据网站用户的访问情况,为用户提供个性化信息服务,这是很多互联网应用,尤其是互联网信息服务或电子商务(网站)所追求的目标。根据用户的访问行为和档案向使用者进行动态的推荐,对很多应用都有很大的吸引力。Web日志挖掘是一个能够出色地完成这个目标的方式。
例如141:SiteHelper可以通过分析每个用户的网页访问情况,了解用户的爱好,并从用户浏览时间较长的网页中抽取出相应关键字,汇总后给用户,获得反馈后,再向用户推荐网站中其他类似或相关网页。又如:WebWatcher“跟踪”用户浏览网页过程,识别用户可能感爱好的链接,WebWatcher根据用户本人和其他类似用户的浏览情况,对每个新网页进行评估,以帮助用户能够及时地浏览自己感爱好的网页。
(二)贸易智能
有关用户访问网站的行为模式,对于电子商务中的市场职员来说是非常重要的,通过定义Web使用日志的超维数据立方,将Web使用数据与电子商务应用数占有机地结合在一起。这样就可以利用数据挖掘方法与技术来为客户关系治理中的四个重要阶段(吸引顾客,保存顾客,交叉销售,顾客离开)提供决策支持。例如:WebLogMiner可以将Web日志数据转换为超维数据立方的形式以便能够进行OLAP分析处理和数据挖掘工作。在WebLogMiner系统中还使用了关联规则,分类和序列模式分析等数据挖掘方法,得到了电子商务交易行为序列、特征和交易预期的分析。
五、小结
本文运用一种基于Web拓扑结构(图结构)挖掘用户访问模式的方法,区别于常用的基于树形结构的Web路径分析技术,进步了发现模式的精确性和效率。我们给出一个像Aprior那样的逐层搜索算法,得到用户的浏览模式。
【用户访问模式挖掘及在电子商务中的应用】相关文章:
Web数据挖掘在电子商务中的应用.03-21
电子商务在图书销售模式中的应用03-22
数据挖掘在旅游电子商务中应用论文11-28
谈聚类挖掘在电子商务中的应用03-18
谈数据挖掘技术在电子商务中的应用03-21
论网格技术在电子商务模式中的应用03-22
数据挖掘技术在电子商务网站中的应用03-28
Web数据挖掘在电子商务中的应用研究03-07
电子商务网站的用户治理模式研究03-21