网站大量收购独家精品文档,联系QQ:2885784924

王荣贵 第4章 无监督学习.pptxVIP

  1. 1、本文档共141页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习Machine Learning 计算机与信息技术学院教育技术系第4章无监督学习1 聚类分析2主分量分析3 稀疏编码与学习 本章学习内容聚类分析 聚类分析 划分聚类 密度聚类 划分聚类划分聚类的基本思想:对样本数据进行划分,实现对样本数据的聚类分析。划分聚类方法首先需要确定划分块的个数即聚簇的个数,然后通过适当方式将样本数据聚集成指定个数的聚簇。 划分聚类?均值聚类和模糊均值聚类是两种最典型、最常用的划分型聚类算法,这两种算法均使用样本数据的均值确定各聚簇的聚类中心,并通过计算各样本数据到各聚簇聚类中心的某种距离实现对样本数据之间的相似性度量。 k-均值聚类?均值聚类算法的基本思想:基于同类样本在特征空间中应该相距不远的基本思想,将集中在特征空间某一区域内的样本划分为同一个簇,其中区域位置的界定主要通过样本特征值的均值确定。 k-均值聚类?图4-1是对具有两个属性特征的某示例样本数据集进行聚类的效果,图中取聚类簇数且每个聚簇的聚类中心坐标值为该簇中所有示例样本特征的均值。 k-均值聚类?通常用欧式距离(2-范数)或曼哈顿距离(1-范数)等范数度量两个示例样本之间的距离。对于给定的示例样本数据集:其中每个示例样本分别具有个特征,即,以欧式距离为例聚类算法对中数据点进行聚类的具体过程如下。 k-均值聚类?假设按照某种方式将数据集中所有示例样本划分为个簇,则与该划分相对应的类内距离为:其中表示为第个簇聚类中心的第个坐标分量。 k-均值聚类?均值聚类算法具体过程如下:(1)令,并从中随机生成个作为初始聚类中心的数据点; (2)计算中各样本与各簇中心之间的距离,并根据值将其分别划分到簇中心点与其最近的簇中; (3)分别计算各簇中所有示例样本数据的均值,并分别将每个簇所得到的均值作为该簇新的聚类中心;(4)若,则终止算法并输出最终簇,否则令,并返回步骤(2)。 k-均值聚类 图4-2展示了K-均值算法从选择初始聚类中心经过迭代到收敛的过程。 例题 【例题4.1】表4-1为某机构15支足球队在2017-2018年间的积分,各队在各赛事中的水平发挥有所不同。若将球队的水平分为三个不同的层次水平,试用k–均值聚类方法分析哪些队伍的整体水平比较相近。?队伍赛事15028172528505050赛事2509154040504040赛事394352199队伍?赛事140505050404050?赛事240505050403250?赛事359599179?队伍赛事15028172528505050赛事2509154040504040赛事394352199队伍?赛事140505050404050?赛事240505050403250?赛事359599179? 例题 ?【解】由于各队在各赛事上的发挥水平有所不同,故先对积分数据进行归一化处理,使用最小-最大标准化策略将积分数据映射到[0,1]区间内,具体计算公式为: 和分别表示第个属性值在所有球队中的最小值和最大值。 使用上述公式对表4-1中数据进行归一化计算,得到表4-2所示的归一化数据。 例题? 队伍赛事110.300.240.3111赛事2100.150.760.7610.760.76赛事30.50.190.130.250.0600.50.5队伍?赛事10.71110.70.71?赛事20.761110.760.681?赛事30.250.50.250.50.510.5?队伍赛事110.300.240.3111赛事2100.150.760.7610.760.76赛事30.50.190.130.250.0600.50.5队伍?赛事10.71110.70.71?赛事20.761110.760.681?赛事30.250.50.250.50.510.5??由于需将球队分为3个层次水平,故取聚类的簇数。通过随机采样选择编号为2、11、14的三支队伍所对应数据点作为初始聚类中心,即三个簇的聚类中心分别为: 例题?计算每个数据点到聚类中心的欧氏距离,计算结果如表4-3所示。 队伍1.259400.34070.76470.77101.23541.07871.078700.91310.99950.52350.59460.63060.30000.30000.34071.25941.36360.83530.86090.50000.24000.2400队伍?0.86091.25941.22211.25940.91311.13071.2594?0.25000.38420.45840.384200.50640.3842?0.458400.250000.38420.66510?队伍1.259400.34070.76470.77101.23541.07871.078700.91310.99950.52350.59460.630

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档