数据挖掘中的距离度量与相似度度量及Python实现.pdf

数据挖掘中的距离度量与相似度度量及Python实现.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
个体间差异的计算方法汇总 参考资料: 《集体智慧编程》P35 个性化推荐系统的研究进展,刘建国等 基于协同过滤的个性化推荐算法研究,周张兰 距离和相似度度量,网站数据分析 蜗牛向前冲 2013年6月1 日星期六 一.背景:目的,应用场景 二.距离度量:欧氏(P)、曼哈顿(P)、切比雪夫(P) 三.相似度度量:余弦(P) 、调整余弦(P) 、皮尔逊(P) 、 Jaccard (P),说明 四.比较:结果,适用场景 注:P代表Python源码实现,测试字典为prefs = {a:{1:1,2:2},b:{1:4,2:5}} 2013-06-01 Saturday 2  目的:  计算个体间的差异,进而评价个体的相似性、类别。  应用场景:  数据分析:相关分析;  数据挖掘:分类算法和聚类算法,eg.K最近邻(KNN) ,K均值(K- Means);  说明:  相似度是样本间相似程度的度量,亦称相似测度、近似系数,如 余弦相似度,夹角越小,相似度越大;  相异度,亦称相异测度、相异系数,如距离,距离越大,相异度 越大。 2013-06-01 Saturday 3 1. 欧氏距离:Euclidean Distance  用于衡量各点间的绝对距离  X 、Y必须是同一特征的不同值,如同是身高或同时体重  n=1,直线上两点的距离  n=2,二维坐标系中两点的距离  n=3,三维坐标系中两点的距离…… 2013-06-01 Saturday 4 0.1907435698305462 #欧氏距离计算用户相似度 #欧氏距离=sqrt(sum(pow(xs-ys,2))) #相似度=1/(1+欧氏距离) def sim_distance(prefs,person1,person2): si = {} for it in prefs[person1]: if it in prefs[person2]: si[it] = 1 if len(si) == 0: return 0 pSum = math.sqrt(sum(pow(prefs[person1][it]-prefs[person2][it],2)for it in si)) return 1.0/(1+pSum) 2013-06-01 Saturday 5 2. 曼哈顿距离:Manhattan Distance  将多个维度上的距离求和后的结果 如左图所示,绿线代表欧氏距离, 红线代表曼哈顿距离,蓝、黄线 代表等价的曼哈顿距离 2013-06-01 Saturday 6 #曼哈顿距离计算用户相似度 0.14285714285714285 #曼哈顿距离=sum|xi-yi| #相似度=1/1+曼哈顿距离 def sim_manhatta

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档