基于Web的个性化服务2.ppt

下载文档

3
0
约3.91千字
约 34页
2018-06-22 发布于江苏
举报
版权申诉
保障服务

基于Web的个性化服务2.ppt

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Web的个性化服务2

基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路简介主要问题：浏览过程中总是会出现一些自己毫不关心的话题解决方法：以网站为中心-以用户为中心提供个性化服务个性化服务(Personalization)[1] 尽可能使得自己的每个用户在浏览该商业网站时都有他就是该网站的唯一用户的感觉尽可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化 Web挖掘的定义[1] Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息 Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services Web挖掘(Web Mining)分类[2] Web使用挖掘 Web内容挖掘 Web结构挖掘个性化服务的表现形式推荐的超链接列表推荐的商品列表（电子商务）推荐的广告列表经裁剪的文本或图像列表基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路个性化服务技术协同过滤技术(CF, Collaborative Filtering) 数据挖掘技术(DM, Data Mining) 协同过滤技术[3] KNN技术(K-Nearest Neighboring) 基于聚类(Clustering-based)的协同过滤基于项目(Item-based)的协同过滤协同过滤技术的缺陷需要用户提供主观的评价信息不能处理大规模的数据量用户的评价信息可能会过时使用不方便数据挖掘技术关联规则(Association Rules)发现序列模式(Sequence Pattern)发现聚类(Clustering)技术 Web挖掘(Web Mining)技术 Web挖掘技术的优点不需要用户提供主观的评价信息可以处理大规模的数据量用户访问模式动态获取，不会过时使用方便基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路基于Web的个性化服务基于Web使用挖掘的个性化服务基于Web使用挖掘和Web内容挖掘的个性化服务基于Web使用挖掘的个性化[4] 基本思路：分析Web日志数据，利用数据挖掘方法发现用户的使用模式，从而向用户提供个性化服务基本过程离线部分数据预处理总体使用特征获取在线部分推荐引擎数据预处理[5] 数据清洗(Data Cleaning) 会话识别(Session Identification) 浏览页识别(Pageview Identification) 事务识别(Transaction Identification) 路径完善(Path Completion) 用户识别(User Identification) 数据预处理的结果浏览页集合P表示为：P = {p1, p2, …, pn} 用户事务集合T表示为：T = {t1, t2, …, tm} 每一个事务t ? T均表示为为浏览页集合P的n维向量： t = w(p1, t), w(p2, t), …, w(pn, t) 总体特征获取使用聚类算法得到不同的事务聚类同一个事务聚类内用户之间的浏览模式尽可能相似，而不同事务聚类中用户之间的浏览模式尽可能不同给定事务聚类c和显著性阈值?，事务聚类c的总体使用特征prc的计算方法如下： prc = {p, weight(p, prc) | p ? P, weight(p, prc) ? ?} weight(p, prc) = 推荐引擎根据当前的用户会话产生实时的推荐集用户当前会话S可以表示为： S = {s1, s2, …, sn} 总体使用特征C可以表示为： C = {w1C, w2C, …, wnC } 推荐引擎使用余弦相似性函数来计算C和S之间的匹配系数：基于Web使用挖掘和Web内容挖掘的个性化[6] 基于Web使用挖掘的个性化服务的问题：商业网站的用户使用数据比较少网站内容变化比较频繁基本思路：在基于Web使用挖掘的基础上，根据浏览页内容之间的相似性为用户提供个性化服务基本过程离线部分数据预处理内容特征获取在线部分推荐引擎数据预处理从文本数据和元数据中抽取内容特征内容特征权重的计算方法：元数据而的权重由商业网站的设计者提供文本内容特征而言的权重由词频反文献频率(TFIDF)确定数据预处理的结果浏览页p表示为内容特征空间上的k维向量： p = fw(p, f1), fw(p, f2), …, fw