网站大量收购闲置独家精品文档,联系QQ:2885784924

机器学习__K均值算法.pptxVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K均值算法 K均值算法分配每个对象到最近的中心以均值更新中心点依据新的中心重新分配对象重新分配对象K-Means(又称k-均值)聚类算法。算法思想是首先随机确定k个中心点作为聚类中心,然后把每个数据点分配给最邻近的中心点,分配完成后形成k个聚类,计算各个聚类的平均中心点,将其作为该聚类新的类中心点,然后重复迭代上述步骤直到分配过程不再产生变化。?更新中心K=2随机初始化2个簇中心 K均值算法K-means算法流程随机选择K个随机的点(称为聚类中心);2个参数超参数k和聚类中心 K均值算法K-means算法流程随机选择K个随机的点(称为聚类中心);2个参数对与数据集中的每个数据点,按照距离K个中心点的距离,将其与距离最近的中心点关联起来,与同一中心点关联的所有点聚成一类;计算每一组的均值,将该组所关联的中心点移动到平均值的位置;重复执行2-3步,直至中心点不再变化;2个更新超参数k和聚类中心 K均值算法import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs X, y = make_blobs(n_samples=300, centers=4, random_state=0, cluster_std=0.60) plt.figure(figsize=(12, 5)) plt.subplot(1,2,1) plt.scatter(X[:, 0], X[:, 1], s=50) K均值算法from sklearn.cluster import KMeans est = KMeans(4) # 4 clusters est.fit(X) y_kmeans = est.predict(X) K均值算法xy1.6589854.285136-3.453693.4243214.838138-1.15154-5.37971-3.36210.9725642.924086-3.567921.5316110.450614-3.30222-3.48711-1.724432.6687591.594842-3.156493.1911373.165506-3.99984-2.78684-3.099354.2081872.984927…………散点图80个2维数据样本集 K均值算法K=4,初始中心点为[-0-2[-2 1[-1-1[-5 0 K均值算法K=4,第六轮迭代?均值向量更新公式K=4,第一轮迭代?各样本与均值向量的距离 K均值算法K=4,初始中心点为[-0-2[-2 1[-1-1[-5 0K=4,初始中心点为[ 4 2[-0 2[ 1 2[ 3 2 K均值算法++++++++++++可以看到程序迭代了4次终止,其得到了局部的最优解,显然我们可以看到其不是全局最优的,我们仍然可以找到一个更小的SSE的聚类。 K均值算法K选择多少合适?SSE=min?找到随着K值变大,损失函数的拐点。 K均值算法对初始化条件敏感。要事先指定K的值。当数据数量不是足够大时,初始化分组很大程度上决定了聚类,影响聚类结果。无法确定哪个属性对聚类的贡献更大。使用算术平均值对outlier不鲁棒。因为基于距离,故结果是圆形的聚类形状。 K均值算法K均值算法的改进方法二分k均值算法Mini Batch k均值算法k均值++算法k中心点算法…… THANKS

文档评论(0)

ZuiFeng + 关注
实名认证
文档贡献者

分享文档,资源共享

1亿VIP精品文档

相关文档