网站大量收购独家精品文档,联系QQ:2885784924

聚类文档文档.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

聚类

聚类的常见用途聚类的常见用途

•知识发现发现事物之间的潜在关关系

•异常值检测

•特征提取数据压缩的例子

回顾有监督机器学习回顾有监督机器学习

•给定训练集X和标签Y

••选择模型选择模型

•学习(目标函数的最优化)-生成模型(本质上是一组参数)

•根据生成的一组参数进行预测、分类等任务

无监督机器学习无监督机器学习

•拿到的数据只有X,没有标签只只根据X的相似程度做一些事情

•Clustering聚类

•对于大量未标注的数据集对于大量未标注的数据集,按照内按照内内在相似性来分为多个类别(簇)内在相似性来分为多个类别(簇),目目

标:类别内相似度大,类别间相似似度小

•也可以用来改变数据的维度,可以也可以用来改变数据的维度,可以以将聚类结果作为以将聚类结果作为一个维度添加到训练个维度添加到训练

集中

•用onehot编码将维度缩减到类别数

•Dimensionalityreduction降维维

聚类算法聚类算法一览览

相似度相似度

数据间的相似度数据间的相似度

•每一条数据都可以理解为多维空空间中的一个点

••可以根据点和点之间的距离来评可以根据点和点之间的距离来评评价数据间的相似度评价数据间的相似度

•欧氏距离

数据间的相似度数据间的相似度

•闵可夫斯基距离

•P=1曼哈顿距离曼哈顿距离

•P=2欧氏距离

•P=无穷切比雪夫距离那个维度度差值最大就是哪个差值作为距离

余弦距离余弦距离

•将数据看做空间中的点的时候,评价远近可以用欧氏距离或者余

弦距离弦距离

•步骤:

•将数据映射为高维空间中的点(向将数据映射为高维空间中的点(向向量)向量)

•计算向量间的余弦值

•取值范围取值范围[[-1,,+1]]越趋近于越趋近于1代表越代表越越相似,越趋近于越相似,越趋近于-1代表方向相反,代表方向相反,0

代表正交

余弦距离评价文章相似余弦距离评价文章相似似度似度

•想要评价两篇文章是否相似,除除了jaccard系数,还可以使用余弦

距离距离

•1.将文章分词

•2.将文章转变为词向量(TFIDF))

•3.转换为词向量后就可以将文章映映射到高维空间变为一个向量

•4.文章之间的向量的余弦距离代表表文章之间的相似程度

TFTF-IDFIDF

•TF在给定的文档中某个词出现的的概率

•某篇文章内部某篇文章内部某词出现的次数某词出现的次数//文文章的总词数章的总词数

•DF语料库中包含词t的总文章数数

•IDFIDF逆文件频率逆文件频率

•代表这个词在语料库中的重要程度度,越稀有代表越重要,为了减低臭大

街的词对于相似度的贡献街的词对于相似度的贡献

•TF-IDF

数据相似度数据相似度-JJaccardddd相似系数相似系数

•用来衡量有限样本集之间的相似似程度

•当集合A,B都为空时,定义J(A,,B)=1

•取值范围?大小关系?

••JaccardJaccard距离距离

JJaccardd例子例子

•假设用户喜欢的商品列表[8,9,17,25,4]

••两个备选推荐两个备选推荐,哪个更好呢?哪个更好呢?

•[9,10,17,24,4,8][8,9,25]

•计算

•J1J1=??J2J2=??

•可以应用于可以应用于网页去重网页去重、文本相似文本相似似度分析似度分析

回顾回顾preciiision和和reccallll

•PRECISION给出的正确中有多少少正确的

••RecallRecall::所有的正确中有多少给所有的正确中有多少给给出了给出了

聚类聚类

•将N个样本映射到K个簇中

••每个簇至少有每个簇至少有一个样本个样本

•基本思路基本思路:

•先给定K个划分,迭代样本与簇的隶隶属关系,每次都比前一次好一些

•迭代若干次迭代若干次,就能得到比较好的结就能得到比较好的结结果结果

KK-means

•算法步骤:

•选择选择KK个初始的簇中心个初始的簇中心

•怎么选?

•逐个计算每个样本到中心的距离,将样本归属到距离最小的那个簇中心

的簇中的簇中

••每个簇内部计算平均值每个簇内部计算平均值,更新簇中更新簇中中心中心

•开始迭代开始迭代

KK-mea

文档评论(0)

会计从业资格证持证人

具备金融(银行,证券,保险,互金),物流,IT(甲方和乙方),贸易,电商,制造业(包括半导体和电子制造),咨询公司等行业工作经验。 多年IT行业项目经理,产品经理,咨询顾问,需求分析,质量保证等岗位工作经验。 调研报告,手册撰写,产品介绍,技术报告,总结报告,作文写作,公文写作,心得体会,品牌故事。 管理体系搭建,财务体系搭建,战略规划定制,建设方案定制,企业转型方案,行业分析报告,数据分析报告,培训计划方案,规章制度撰写,运营方案定制,商业计划书,可行性分析,话术定制。

领域认证该用户于2024年12月25日上传了会计从业资格证

1亿VIP精品文档

相关文档