第七章 用户行为特征及缓存地应用.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 用户行为特征及缓存地应用

第七章 用户行为特征及缓存的应用 张宇 计算机科学与技术学院 研究用户行为特征的目的 有哪些信誉好的足球投注网站引擎用户输入的查询词语和查询过程中所点击到的网页URL均表现出明显的局部性 可以用来指导查询缓存的设计 主要内容 用户查询与点击日志 用户行为特征的统计分析 查询缓存的使用 用户行为与Web信息的分布特征 主要内容 用户查询与点击日志 用户行为特征的统计分析 查询缓存的使用 用户行为与Web信息的分布特征 用户查询与点击日志 有哪些信誉好的足球投注网站引擎所维护的信息种类 搜集到的Web网页相关的信息 网页经过分析处理后得到的信息:摘要、关键词、元信息、URL超链信息 这些都是提供给用户看的信息 在服务过程中收集到的用户行为信息 用户的查询项、查询时间、用户的IP地址、用户点击的感兴趣的页面的URL 用户查询与点击日志 天网日志文件 用户查询日志 用户提交查询请求时记录的 用户提交的关键词、提交时间、用户的IP、页号、是否在缓存中命中 用户点击日志 在用户浏览查询结果时点击页面时记录的 用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号、该点击对应的查询词等 用户查询与点击日志 统计分析了如下用户行为的分布特征 用户查询词的分布情况 雷同查询词的衰减统计 相邻N项查询项的偏差分析 用户点击URL的分布情况 用户在输出结果中的翻页情况 主要内容 用户查询与点击日志 用户行为特征的统计分析 查询缓存的使用 用户行为与Web信息的分布特征 用户行为特征的统计分析 用户查询词的分布情况 天网1999年4月15日到1999年6月10日期间的日志记录为分析对象 假设用户的查询词序列为 其中,n个查询中共有m个不同的查询词 按查询次数降序排列,得到 用户行为特征的统计分析 与S2对应的查询次数序列 S2中前某个百分比的查询词对应的查询次数占总查询次数的比率Y 用户行为特征的统计分析 主要内容 用户查询与点击日志 用户行为特征的统计分析 查询缓存的使用 用户行为与Web信息的分布特征 查询缓存的使用 基于用户行为的启示 用户查询分布的统计分析表明 用户查询词是非常集中的 表明在查询中使用缓存的可行性 用户经常查询的词其实很少 把这些查询次数较高的词的查询结果放在缓存中,可以用较小的空间取得较大的缓存命中率 主要内容 用户查询与点击日志 用户行为特征的统计分析 查询缓存的使用 用户行为与Web信息的分布特征 用户行为与Web信息的分布特征 基本术语 网页重要度的度量 用户访问越多的网页越重要 网页P的入度H(P) 整个网络中指向网页P的超链接数目 网页P的镜像度C(P) 整个网络中网页P的镜像个数 域名深度:域名中包含子域的个数 目录深度D(P):域名中包含目录的层数 3种替换策略的局部比较 查询缓存的使用 衰减因子 每次发生替换时,用某个衰减因子去衰减原来的查询次数并累加新的查询次数 缓存大小 100 300 500 1000 2000 3000 LRU命中率 0.629381 0.680018 0.692691 0.707481 0.723485 0.733972 LFU命中率 0.629934 0.680690 0.694037 0.711096 0.729509 0.741040 调整后的LFU和LRU命中率的比较 查询缓存的使用 有哪些信誉好的足球投注网站引擎技术 第七章 用户行为特征及缓存的应用 * Fri Mar 21 00:00:02 2003 //提交时间 7 //用户IP Database //是否在缓存中命中 老歌 //查询词 3 //页号 Fri Mar 21 00:00:02 2003 //点击时间 69 //用户IP 虫儿飞 //查询词 /tm/000828/000828_64264.html //点击的URL 16 //点击页面的排序 查询词的分布情况 X轴:用户查询词占查询词总数的百分比 Y轴:查询词的查询次数占总的查询次数的百分比 查询词分布函数及其拟合函数 原函数 拟合函数 拟合函数:y=(-0.04103+1.01689x)0.1346 用户行为特征的统计分析 雷同查询词的衰减统计 将序列S1进行分组(用户的查询词序列) 每1000个一组 T1表示A1中不同的查询项组成的集合,然后计算后面各组的查询项中有多少个查询项出现在T1中 用户行为特征的统计分析 雷同查询词的衰减 用户行为特征的统计分析 相邻

文档评论(0)

ldj215323 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档