网页序列分析系统设计_论文.docVIP

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 第一章 绪论 1 第二章 数据基本分析 2 2.1数据说明 2 2.2质量分析 2 2.3 基本描述分析 2 第三章 数据预处理 4 3.1 数据处理过程 4 3.2 数据预处理方法 4 3.3 数据预处理结果 6 第四章 数据模型构建 8 4.1 数据流的构建 8 第五章 模型结果分析 12 5.1结果的分析处理 12 5.2 结果合理性分析 13 第六章 应用系统设计 16 6.1模型接口 16 6.2人机接口 19 6.3软件测试 24 结论 30 参考文献 31 结束语 32 第一章 绪论 由于网站的结构设计,对特定用户而言信息获取的代价与所经过的浏览路径长度成正比,这些位于路径中间的不必要的文档就无疑增加了用户获取信息的代价。本文利用挖掘的方法和技术对用户所访问的页面序列进行挖掘,构建模型,实现对当前站点排序方式的优化,从而最大限度地优化用户访问体验,提高当前站点信息获取的整体效率。[关键词];挖掘;访问序列 传统的Web网站以系统自身为中心,为了容纳大量的信息,以图结构组织网站,页面之间存在着比较复杂的层次关系。这些预先设计好的浏览路径(网站的结构)严格按照设计者编辑好的层次返回页面,因此,为了获取特定的信息,从同一页面出发的所有用户都不得不重复地经过很多与自己毫无关系的、不希望看到的中间链接页面,使得用户为了获取少量的信息付出较大的代价。如果在确保网页内容的前提下,实现网站物理结构的调整和再组织,就可以避免混乱。站点路径优化实际上就是站点管理者优化其站点结构,它的出现就是为了提高用户的访问效率以及用户对站点的忠诚度。  第二章 数据基本分析 2.1数据说明 本数据来自网络信息服务(IIS)网站和1999年9月28日全天日志记录,每行连续数据表示单个用户24小时内浏览网页的记录,连续数据中的数字表示用户对相应网页的浏览请求,该访问请求不会被记录成详细的记录,即具体的网址,而只是单单记录了网页类型。这些网页类型分别是 frontpage, news, tech, local, opinion, on-air, misc, weather, health, living, business, sports, summary, bbs (bulletin board service), travel, msn-news, and msn-sports。通过超高速缓冲器(寄存器)每个网页的服务请求不会被记录到服务日志,因此,它不会体现在数据中。 2.2质量分析 此次分析的数据总共有989818,平均每个用户点击网页的次数是5.7次,每个不同类型的网页有10到5000个不同的URL(网页地址Internet Information Server (IIS),有足够可信度。用户平均点击网页的数据也有5.7次,适合用于分析点击网页序列,每种类型的网页也有足够多的不同网址,符合客观要求。因此从数据质量上看,所选取的数据有分析的必要。 2.3 基本描述分析 截取部分数据如下: 1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4 1 1 1 11 1 1 1 12 12 1 1 每一行代表一个用户所点击的网页,此次选取的数据之中一共有17个不同类型的网页,分别是:frontpage news tech local opinion on-air misc weather msn-news health living business msn-sports sports summary bbs travel 为了方便处理,将以上各个网页进行编号,分别为1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17。一第三行数据为例对单个用户的数据进行说明。用户3第一次点击3号网页,第二次点击2号网页,第三次点击2号网页,第四次点击4号网页等一次类推下去。每一行都是一个用户的记录 第三章 数据预处理 3.1 数据处理过程 此次任务是设计基于网页点击次序来推送下一次可能点击的网页。选取的方法是Clementine 的序列关联,所以要将数据处理成Clementine可读取的格式,并且要删减不必要的数据,改写数据的格式,这样才能达到分析处理的要求。 结合提供的数据具体分析:每行数据是一个用户的信息记录,表示的含义是第n号用户点击了哪个网页,是第几次点击的。 举出部分数据样例如下: 1 1 2 3 2 2 4 2 2 2 3 3 5 1 6 1 1 6 6 7 7 7 6 6 8 8 8 8 6 9 4 4 4 10 3 10 5 10 4 4 4

您可能关注的文档

文档评论(0)

六神无主 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档