网站大量收购闲置独家精品文档,联系QQ:2885784924

基于Web的个性化服务2.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Web的个性化服务2

基于Web的个性化服务 简介 个性化服务技术 基于Web的个性化服务 改进思路 简介 主要问题:浏览过程中总是会出现一些自己毫不关心的话题 解决方法: 以网站为中心-以用户为中心 提供个性化服务 个性化服务(Personalization)[1] 尽可能使得自己的每个用户在浏览该商业网站时都有他就是该网站的唯一用户的感觉 尽可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化 Web挖掘的定义[1] Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息 Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services Web挖掘(Web Mining)分类[2] Web使用挖掘 Web内容挖掘 Web结构挖掘 个性化服务的表现形式 推荐的超链接列表 推荐的商品列表(电子商务) 推荐的广告列表 经裁剪的文本或图像列表 基于Web的个性化服务 简介 个性化服务技术 基于Web的个性化服务 改进思路 个性化服务技术 协同过滤技术(CF, Collaborative Filtering) 数据挖掘技术(DM, Data Mining) 协同过滤技术[3] KNN技术(K-Nearest Neighboring) 基于聚类(Clustering-based)的协同过滤 基于项目(Item-based)的协同过滤 协同过滤技术的缺陷 需要用户提供主观的评价信息 不能处理大规模的数据量 用户的评价信息可能会过时 使用不方便 数据挖掘技术 关联规则(Association Rules)发现 序列模式(Sequence Pattern)发现 聚类(Clustering)技术 Web挖掘(Web Mining)技术 Web挖掘技术的优点 不需要用户提供主观的评价信息 可以处理大规模的数据量 用户访问模式动态获取,不会过时 使用方便 基于Web的个性化服务 简介 个性化服务技术 基于Web的个性化服务 改进思路 基于Web的个性化服务 基于Web使用挖掘的个性化服务 基于Web使用挖掘和Web内容挖掘的个性化服务 基于Web使用挖掘的个性化[4] 基本思路:分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务 基本过程 离线部分 数据预处理 总体使用特征获取 在线部分 推荐引擎 数据预处理[5] 数据清洗(Data Cleaning) 会话识别(Session Identification) 浏览页识别(Pageview Identification) 事务识别(Transaction Identification) 路径完善(Path Completion) 用户识别(User Identification) 数据预处理的结果 浏览页集合P表示为:P = {p1, p2, …, pn} 用户事务集合T表示为:T = {t1, t2, …, tm} 每一个事务t ? T均表示为为浏览页集合P的n维向量: t = w(p1, t), w(p2, t), …, w(pn, t) 总体特征获取 使用聚类算法得到不同的事务聚类 同一个事务聚类内用户之间的浏览模式尽可能相似,而不同事务聚类中用户之间的浏览模式尽可能不同 给定事务聚类c和显著性阈值?,事务聚类c的总体使用特征prc的计算方法如下: prc = {p, weight(p, prc) | p ? P, weight(p, prc) ? ?} weight(p, prc) = 推荐引擎 根据当前的用户会话产生实时的推荐集 用户当前会话S可以表示为: S = {s1, s2, …, sn} 总体使用特征C可以表示为: C = {w1C, w2C, …, wnC } 推荐引擎 使用余弦相似性函数来计算C和S之间的匹配系数: 基于Web使用挖掘和Web内容挖掘的个性化[6] 基于Web使用挖掘的个性化服务的问题: 商业网站的用户使用数据比较少 网站内容变化比较频繁 基本思路:在基于Web使用挖掘的基础上,根据浏览页内容之间的相似性为用户提供个性化服务 基本过程 离线部分 数据预处理 内容特征获取 在线部分 推荐引擎 数据预处理 从文本数据和元数据中抽取内容特征 内容特征权重的计算方法: 元数据而的权重由商业网站的设计者提供 文本内容特征而言的权重由词频反文献频率(TFIDF)确定 数据预处理的结果 浏览页p表示为内容特征空间上的k维向量: p = fw(p, f1), fw(p, f2), …, fw

文档评论(0)

jixujianchi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档