- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络用户浏览模式聚类算法研究.pdf
网络用户浏览模式聚类算法研究1
包剑
辽宁工程技术大学计算机系,辽宁阜新 (123000)
E-mail :jane1971@163.com
摘 要:随着接入Internet 的用户数量剧增以及Web 服务和网络固有的延迟,使得查询、管
理和使用这些数据信息资源变得越来越复杂和困难,人们迫切需要开发和管理 Internet 和
Web 信息资源的新手段和新方法。提出了基于主次属性的聚类算法,可以使用户获取信息与
提高网络浏览速度。
关键词:浏览模式,Web 挖掘,浏览偏爱路径,聚类算法
中图号:TP.391 文献标识码:A
0 引言
随着WWW 的规模越来越大,使其成为巨大而复杂的网络,其中蕴涵着具有巨大潜在
价值的知识,为使用户获取信息与提高网络浏览速度,根据用户当前的兴趣状况,研究基于
WWW 的网络用户浏览行为,可从Web 文档和Web 活动中抽取感兴趣的潜在的有用模式和
隐藏的信息。目前研究的问题主要包括对日志信息按事务进行处理,发现用户访问模式间的
关联、相似关系;从不同角度提出了度量用户浏览模式相似性的方法,比如基于共同访问模
式的长度、基于访问频度等方法;还有用户信息分类等。聚类是数据挖掘中的一种重要的分
析手段,其目的是帮助人们更好地理解和观察数据的自然分组或构造。将物理或抽象对象的
集合分成由类似的对象组成的多个类的过程被称为聚类。一个聚类就是彼此相似的一组对象
所构成的集合。数据聚类在市场分析、生物基因分析、地理观测数据、信息模式识别等各种
领域的数据分析中起着重要的作用,同时,聚类分析还可以作为一个单独的使用工具,作为
其他的数据挖掘技术的预处理步骤,如很多的聚类算法、定性归纳算法等在聚类的基础上能
取得更好的效果。聚类算法的目的是将数据对象自动地归入到相应的有意义的聚类中。追求
较高的类内相似度和较低的类间相似度是聚类算法的指导原则。
目前的聚类算法主要被划分为分区的方法和层次的方法。基于分区的聚类算法的基本思
想是利用一个划分方法对n 个对象进行分区,然后利用循环再定位技术,通过移动不同划分
中的对象来改变划分内容,最后得到的每一个分区代表一个聚类。典型的分区算法包括:
K-means 算法[1] [2]
,它用类中对应的平均值表示每个类;K-mediods 算法 用最接近聚类中心
的对象表示一个类。层次聚类算法对给定的数据对象进行层次分解,它或者将每一个对象作
为一个单独的组,然后合并相近的组形成聚类。即自下而上的层次方法:或者将所有对象作
为一个组,然后分裂有较大差异的对象到不同的组而形成聚类,即自上而下的层次方法。
BIRCH[3] ,CURE[4] ,CHAMELEON 等算法是层次聚类的典型。另外还有 CLARA[5] ,
CLARANS[6]等算法也是这类聚类方法的改进。
1 基于主次属性的聚类算法
基于主次属性划分的聚类方法的基本策略是:首先对对象集中的所有对象给出重要属性
和次要属性,然后随机选取一个对象作为一类的中心,对剩余的对象,考察其与该中心的相
似度。如果某一个对象的重要属性与中心的重要属性相同的比例大于某一百分比且重要属性
1本课题得到辽宁工程技术大学科学技术基金资助项目(06-168 )的资助。
- 1 -
占到全部属性的某一百分比时,将其划归为一类,否则,它们属于不同的类。
对于给定的属性集,各属性在某个对象S 中的重要性是不同的,用一个阀值来代表属性
在对象中的重要程度,称为属性的权重。对于两个对象,如果它们具有越多的相同属性且相
文档评论(0)