基于用户访问序列挖掘的站点路径优化分析(下

2012-09-28 14:55 | 点击次数（次）来源：在职研究生 | http://www.zhongjiao.net

　　站点路径优化可以分为两类：用户群访问模式挖掘的路径优化和个性化挖掘的路径优化。一般访问模式挖掘的路径优化通过分析在特定时间点的特定用户群的访问记录来了解用户的浏览模式和倾向，以改进站点的组织结构;而个性化挖掘的路径优化则倾向于分析个别用户的偏好，其目的是根据用户的访问模式，为其提供定制服务。

　　3.3.1个性化的浏览路径优化。Web站点的链接结构是Web设计者根据一定的策略建立起来的，可能与用户期望的链接结构之间存在一定的差距。如图3.1所示，目标页面X放在页面B1下，但是用户浏览路径是F→A2→B2，因此用户期望页面X的位置在A2或B2下。如果事先能了解用户的期望位置，从而在A2(或B2)和页面X之间建立导航链接，自然就方便了用户，提高了网站的访问效率[1]。

　　(1)发现用户期望位置。

　　设{P1，P2，...，Pn}为用户访问过的页面，Pn是一个目标页面，B=Ф;∥B为回溯点的集合;

　　图3 用户访问站点路径

　　For(i=2;i<=n-2;i++)

　　{if(Pi-1=Pi+1) or (no link from Pi to Pi+1) add Pi to B} ∥Pi是一个回溯点;

　　If (B not empty) add n，B，Pn-1> to table;

　　通过该算法，就可以找到用户的返回点，这个位置可能是期望位置，也可能是目标页面，但可以通过确定时间阈值来解决这个问题。当用户在返回点停留的时间较长，超过指定的阈值，则认为该页面是目标页面，否则可以认为该页面是期望位置。通常用户在浏览Web站点时，在第一期望位置找不到目标页面，就会在第二期望位置找，如果还找不到，会在第三期望位置找……，其中最受关心的是第一期望位置，而且是那些被第一期望且发生频率高于系统设计者指定值的所有页面。因此，寻找第一期望位置便成了我们关注的焦点[12]。

　　(2)目标位置和期望位置的判定。设Ei表示第一期望位置，算法如下：先以用户的ID为主关键字，时间为次关键字，对Web日志文件建立索引，扫描Web日志索引文件，对每一个用户ID，摘取出页面序列。

　　For (I=1;I<=1;I++)∥n为Web日志中的记录数

　　{统计Ei中所有页面支持数;

　　Sort page by support;

　　If support(P)>=SI ∥SI为Web设计者制定的阈值;

　　则P为被第一期望且发生频率高于系统设计者指定值的页面}

　　经过提取目标页面与期望位置之后，将形成如表1的目标页面与期望位置匹配集[13]。

　　(3)调整站点结构。根据该算法的挖掘结果，很多内容页面(目标页面)的实际位置与用户所期望的位置不一致，可以考虑依据这些目标页面的用户期望位置来调整目标页面的实际位置。第一期望位置、第二期望位置……这些页面从某种角度看是围绕同一主题展开的，访问了其中部分页面的用户往往也会访问其他页面，因此可以在这些页面之间设置推荐链接。

　　3.3.2 用户群访问模式的路径优化。对用户群访问模式的问题，采用挖掘频繁访问的最大序列的方法可以挖掘出更有普遍意义的模式，算法包括有Apriori算法，最大向前序列法，参考长度法和树形拓扑结构法等。它们先将日志中的用户浏览历史记录转换成一个浏览子序列集：最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。频繁浏览路径就是指按照一定顺序组成的网页序列集，用户依照此序列访问网站的频度很高。

　　根据频繁访问路径算法得到频繁访问路径FP，对应记录为X(fp，np)，其中fp表示URL组成的序列，np表示浏览路径集合中FP出现的次数[14]。

　　for all X∈FP

　　for all Y∈FP and Y≠X

　　if X. fp∈Y. fp. sub then X.np=X.np-Y.np

　　∥ 检查X. fp是否为另一记录Y. fp的子序列

　　If X. np > n

　　∥ n为预先设定的次数阈值

　　set Suplnik( X . fp)

　　∥设计新的从X. fp起点指向终点的超链。

　　该方法可以用于重构Web站点的页面之间的链接关系，及重构Web站点的拓扑结构、发现相似的客户群体，开展个性化的信息服务和有针对性的电子商务活动，应用信息推拉技术构建智能化Web站点。

　　4 结语

　　站点路径优化就是通过Web挖掘技术来收集和统计用户访问过的历史数据，挖掘当前用户频繁访问的页面序列，对个体用户获取其兴趣模型，以便在用户以后的访问过程中根据兴趣模型自动向用户推荐内容，指导用户的浏览行为，提高浏览信息效率。对群体用户获取其访问路径规则与模式，通过增加超链改进站点结构，将页面加入缓存提高访问速度，提高用户对站点访问的满意度[15]。访问规律的获取对算法提出了较高的要求，可以借鉴现有模式发现算法实现浏览结构的优化。

　　[参考文献]

　　[1] 程舒通，徐从富，但红卫. 基于改进频繁模式聚类算法的网站结构优化[J]. 计算机应用研究，2008(4)：268—269.

　　[2] 阳小华，周龙镶. 基于用户访问模式的WWW浏览路径优化[J]. 软件学报，2001(6)：847—850.

　　[3] 缪勇. 匿名用户浏览路径挖掘研究与实现[D].南京理工大学，2006.

　　[4] 阮备军. Web使用挖掘若干关键问题研究[D]. 复旦大学，2004.

　　[5] 张素兰，杨炳儒，范艳梅. 一种基于图结构挖掘WEB用户访问模式的方法[J]. 计算机工程与应用，2004(12)：37—39.

　　[6] 易明，张扬. 基于全信息的“点击流”信息资源开发利用研究[J].情报科学，2007(12)：198—203.

　　[7] 杜文华. 基于点击流技术的个性化信息服务研究[J]. 情报杂志，2006(10)：22—23.

　　[8] 余轶军. Web访问信息挖掘若干关键技术的研究[D]. 浙江大学，2006.

　　[9] 易明，张金隆. “点击流”信息资源开发方法研究[J]. 图书情报工作，2006(7)：85—88.

　　[10] 王勇，张伟，陈军. 基于模糊聚类的Web浏览路径分析方法[J]. 计算机工程与设计，2007(6)：1484—1486.

　　[11] 杨清莲. Web日志中序列模式挖掘及其应用[D]. 南京工业大学，2005.

　　[12] 陈娟. 构建基于关联规则的网络行为挖掘系统[J]. 科学技术与工程，2007(13)：250—253.

　　[13] 易明，邓卫华，曹高辉. 基于“点击流”数据的站点信息组织优化[J]. 现代图书情报技术，2006(1)：51—54.

　　[14] Ming—Syan Chen，Jong Soo Park，P.S. Yu，Data mining for path traversal patterns in a web environment，16th IEEE International Conference on Distributed Computing Systems (ICDCS 96)：385.

　　[15] 陆云. 聚类分析数据挖掘方法的研究与应用[D]. 安徽大学，2007.

史老师