网站大量收购独家精品文档,联系QQ:2885784924

电子商务新进展:个性化营销的方法.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电子商务新进展:个性化营销的方法.ppt

数据预处理—Web日志的会话识别 Referer分析:仅有一个会话 会话过程:A→C →B →D →E →D →B →C →F 数据预处理—Web内容表示 Web文本内容是最受关注的挖掘对象 Web文本包含各类词汇,有的词是无价值的,如何提取文本中的特征词?如何表示一个文本使其便于数据挖掘方法的应用? 向量空间模型(Vector Space Model):模型根据文本中的词汇出现在整个网站中的频次为每个词汇计算出一个权重,形成关于该文本的词汇,权重向量空间 数据预处理—Web内容表示 设网站共有Q个页面,出现词Ti的页面数为ni,则IDF(inverse document frequency)=logQ/ni 词Ti在页面j上出现的频数(Term Frequency)为fij,则Ti在页面j上的权重wij计算如下: wij=fij×logQ/ni (TF-IDF模型) 页面j可用向量空间Pj表示,则可分析页面相似性等性质 T1 T2 ... Tk 0.12 0.50 ... 0.07 数据预处理—Web结构表示 网站是众多页面相互链接形成的一个网络,可用图表示: G=V, E 其中,V:站点页面集合,E:页面间超链接集合 在实际应用中,根据使用目的不同,G可以是有向图、无向图或树。 Web结构挖掘—意义 页面之间的相互链接是有目的的,它表征了内容之间的内在联系,分析链接结构可以: 网站结构是不是足够优化? 网络社群有什么特点?(在超链图上的访问轨迹隐含着很多有意义的知识!) 哪些页面是权威页面(authoritative)? Web结构挖掘—任务 基于超链接关系,对页面、信息进行聚类分析,发现其中的社区结构 挖掘文档的自身结构(通过分析文档内的超链接) 发现某个具体领域网站的超链结构(层次结构or网状结构)的性质 挖掘权威页面 Web结构挖掘—HITS算法 HITS(Hyperlink-Induced Topic Search)算法假设 可信的资源链接可信的资源 超链接名表达某种涵义 排名(权威性)是有哪些信誉好的足球投注网站关键词和超链结构的函数 算法思想 权威页面依赖于入度(被其他页面引用越多越重要) 权威页面来自于重要的导航页,而重要的导航页包含许多权威页面的超链接 根据页面是不是权威页面或导航页面,指派一个非负数的权重 迭代:计算关联页面的重要性 Web结构挖掘—HITS算法 设P是页面集,ap和hq分别为权威页面和导航页面的权重,计算如下: 设A、H分别为社区内所有权威页面和导航页面的权向量,A=MTH,H=MA,M=(mij)=1(i→j)/0(else) A(k+1)←MTH(k)=(MTM)A(k), H(k+1)←MA(k)=(MMT)H(k) Web结构挖掘—HITS算法 Web结构挖掘—HITS算法 算例: Web结构挖掘—HITS算法 Web结构挖掘—HITS算法 HITS算法仅根据超链接关系分析权威页面和导航页面,而没有考虑有哪些信誉好的足球投注网站词 考虑有哪些信誉好的足球投注网站词的算法可参考: CHAKRABARTI, S., DOM, B., GIBSON, D,et al. Automatic resource compilation by analyzing hyperlink structure and associated text. Computer Networks and ISDN Systems,Volume 30, Issues 1-7, April 1998, Pages 65-74 Web结构挖掘—PageRank算法 Google采用的基本算法(Lary Page, 拉里.佩奇,google创始人),节点代表页面,有向边代表超链接 假设: 冲浪者随机选择起始页面 在以后的每一步,冲浪者以概率d直接进入目标页面或以1-d的概率通过其它指向目标页面的超链接进入目标页面。d的经验值约为0.85。 一个页面的重要性取决于指向该页面的页面的重要性 Web结构挖掘—PageRank算法 则页面p的重要性为: xp(k+1)=(1-d)/n+d?q,p?P,q→p(xq(k)/Nq) P为站点的页面集,n为所有页面数,Nq为页面q的出度,xq(k)为页面q的重要性。 这样就可以计算出所有页面的重要性。记X={xp|p?P},D={1/n,1/n,…,1/n},M={mpq}={1/Nq},Nq表示可直接链接到页面p的页面q的出度,则X(k+1)=(1-d)D+dMX(k) Web结构挖掘—PageRank算法 * Web结构挖掘—PageRank算法 算例: 0 Web结构挖掘—PageRank算法 Web结构挖掘—PageRank算法 优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档