- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
理学院
School of Sciences
毕业设计(论文)外文翻译
(2011届)
学生姓名:
XXX
学生学号:
XXX
所在班级:
XXX
所在专业:
XXX
指导教师:
XXX
资料来源:
XXX
原文
译文(字数3632)
基于矩阵降维的典型用户文件发现方法
陆建江 徐宝文 黄刚石 张亚非
摘 要 应用聚类技术能够自动地发现典型用户文件,但是由于会话向量通常是高维的稀疏向量,因此很难在会话向量之间设计有效的相似度度量。本文提出2种基于矩阵降维的典型用户文件发现方法。这些方法应用非负矩阵分解技术降低会话-URL矩阵的维数,并通过球形的k-均值算法对用户会话向量的投影向量聚类,由此得到典型用户文件。实验结果表明,这些算法能够有效地从用户会话中发现典型的用户文件。
关键词 Web挖掘;非负矩阵分解;球形的k-均值算法
中国分类法 TP18
Web个性化的传统方法主要有三种:手工决定的规则系统,协同过滤系统和基于内容的过滤代理。这些传统的基于内容或基于规则的个性化技术有许多众所周知的缺点。输入的类型通常是由用户自身所作的主观性描述,因此往往带有偏见。文件通常是静态的,并且通过用户登记而获得,因此系统的运行情况随着文件的变旧而成倍的降低。协同过滤通常是致力于这些题目的。然而协同过滤技术有它自身潜的地严重局限性。例如,当维持合理的预报工作和准确性的时候,协同过滤技术将很难处理许多项目。
许多建议和更多的传统技术已经探究出将Web惯用的挖掘作为一种行之有效的机制成功地处理了一些问题。数据挖掘技术目前正计划从储存在服务器和存取日志中的大量历史数据中挖掘典型用户文件。在Web传输中的关联和连续模式已经被发现是基于关联规则算法的。聚类已经用于自动地从储存在Web服务器上的Web日志文件中发现Web用户文件。在基于聚类的发现Web用户文件的过程中,一个向量空间模型是通过在Web站点给每一个向量属性分配一个URL来描述用户会话的,并且会话向量间的相似度度量被定义为典型用户外型。但是,对于Web会话来说,用户会话构成的高维的稀疏数据矩阵是非常著名的。由于高维特征向量的聚集作用包含大量的不能由单个属性推导出来的信息,因此很难设计为高维应用相似度函数。为了设计有效的相似度度量,本文应用非负矩阵分解来给会话-URL矩阵降维,并给出两种典型用户文件发现方法。
本文是这样构成的。第一部分应用非负矩阵分解来给会话-URL矩阵将维;第二部分通过球形的k-均值算法把用户会话向量的投影向量聚类为典型的用户会话文件;第三部分给出一个实验;第四部分做出必要的总结。
1 非负矩阵分解
每一个存取日志记录包含:①用户IP地址;②存取时间;③请求时间;④该页存取的URL;⑤数据传输协议;⑥答复码;⑦传输的字节数。首先我们过滤出与我们的工作无关的日志记录。它包含这样的记录:①所有错误的结果;②使用“GET”以外的请求方式;或者③记录备份文件的存取。然后,同样,把单个日志记录组成用户会话。一个用户会话由用户定义为一个普通的致密存取序列。由于Web服务器不能典型地记录用户名,我们定义一个用户会话作为相同IP地址的存取,正如在会话中,两个连续的存取时间之间的持续消逝时间是在一个提前指定的起点间的。
分配给站点中每一个URL一个唯一的数字i{1,2,…,m},其中m是有效URL的总数。因此,把第j个用户会话加密为m维二进制属性向量=,其中,如果在第j个会话中用户存取第i个URL,=1,否则=0。用户会话个数记为n,然后,用户会话向量包含一个被称为会话-URL矩阵的非负矩阵X=。向量的所有分量通常标准化为单位向量,如下所示,
i=1,2,…,m
显然,标准化的结果只是为了不改变向量的方向。这就确保了处理相同的主题而不同长度的问题的会话可产生相似的会话向量。
但是,对于Web会话来说,用户会话构成的高维的稀疏数据矩阵是非常著名的。由于高维特征向量的聚集作用包含大量的不能由单个属性推导出来的信息,因此很难设计为高维应用相似度函数。为了设计有效的相似度度量,我们应用非负矩阵分解来给会话-URL矩阵降维。
给出一个非负矩阵X=,非负矩阵分解找出非负m×r矩阵U=和非负r×m矩阵V=如下
X=UV (1)
r一般应满足(n+m)rnm,为的是乘积UV可以被作为X中的数据的一种压缩形式。
(1)式可以按列表示为
x=Ux (2)
其中x和v是X和V中相应的列。每一个向量x近似地等于U中列的一个线性组合成乘上V的每一个分量。因此,U可认为包含一个基向量,这个基向量充分运用X中向量的相似值。由于用相对较少的基向量来表示许多向量,只有这基向量显示出向量中的潜在结构时,才能够获得好的近似值。
这里,我们介绍一个基于U和V迭代估计的算法。在算法的每一次迭代过程中,通过一些依赖于(1)式中
文档评论(0)