k-means聚类算法.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
算法思想K均值是一种基于划分的聚类方法,以k为参数,把n个对象分为k个簇,使得类内具有较高的相似度,而类间的相似度最低。相似度的计算根据一个簇中对象的平均值(被看作簇的中心)来进行。K均值算法首先选择k个对象,每个对象初始地代表了一个簇中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。Miner K均值模型创建第一步选择数据表选择用于建模的数据表(数据表的记录数必须大于等于10)。这里,选择数据源表中的“客户数据”,如图6.3-54,详细说明参照6.2.1.1.1节的操作流程第一步。图6.4-1数据源点击下一步跳转至建模参数设置页面。第二步设置建模参数设置建模参数。整列为空、整列取值相同的字段、日期字段以及分类数大于1000的字符字段为必须排除字段。这里,排除字段“客户ID”等设置如图6.4-2所示。详细说明参照6.2.1.1.1节的操作流程第二步建模参数设置。图6.4-2建模设置第三步设定高级参数点击显示参数设定按钮,进行高级参数设置。主要对数据预处理和算法参数进行设置。图6.4-3参数设置数据预处理:详细说明参考6.1.1.1.1节属性筛选算法,本次建模未进行预处理设置。算法参数:详见本节的算法参数设置。第四步提交任务参数设置完毕后,点击提交按钮,完成建模任务。算法参数设置算法参数说明聚类簇数:聚类簇数的设置包括自动寻优和自定义两种。(1)自动寻优:按照选定的最优聚类的评估指标,以及聚类簇数的最大值和最小值由算法自动寻找聚类的最优簇数。A)最优聚类的评估指标包括五种:似然对数、Jump、Gap、Hartigan和Calinski-Harabasz。算法根据用户选定的最优聚类评估指标计算最优的聚类簇数,并用此聚类簇数建立聚类模型,同时也会计算出选定的附加分析指标对应的最优聚类簇数供用户进行参考。B)最小聚类簇数:最优分群数有哪些信誉好的足球投注网站时的最小分群数,默认值为1,取值范围为1~min{46,记录数-6}的整数。C)最大聚类簇数:最优分群数有哪些信誉好的足球投注网站时的最大分群数,默认值为10,取值范围为5~min{50,记录数-2}的整数,最大聚类簇数与最小聚类簇数之差要大于等于3。D)寻优数据随机抽样:当记录数大于等于10000时,在寻找最优聚类簇数时要进行数据抽样,记录数小于10000时此功能不可使用。抽样方式有两种:按记录数和按百分比。按记录数抽样时需设置抽样的数目,按百分比抽样时设置抽样的百分比。(2)自定义:设定所需要的聚类数目。聚类簇数的默认值为5,即把数据集聚为5类;聚类簇数应设置2~50之间的整数;是否计算线箱图:默认不计算。随机数种子:选取初始质心的随机种子,应设置正整数;最大迭代次数:用于控制算法的最大循环次数,即使算法不收敛,当循环到最大迭代次数时算法停止计算,并返回当前聚类结果;挖掘单元数:对于可以并行的算法,若存在多个挖掘单元进行并行计算,可以很大程度上缩短算法建模时间,建议存在多个计算资源、建模数据量非常大时设置大于1的值。并行线程数:共享内存并行线程数。Miner K均值模型查询第一步选择模型从模型列表中选择要查询的模型。这里选择模型列表中的“客户数据_K均值”模型,如图6.4-4所示。详细说明参照6.2.1.1.2节的第一步。图6.4-4模型状态点击查询按钮,跳转至查看建模参数信息页面。第二步查看模型信息查看模型信息,包括模型基本信息,预处理参数和算法参数,如图6.4-5所示。下面分别介绍三个选项卡中的内容。图6.4-5模型基本信息1.??? 模型基本信息:点击排除字段的显示按钮,显示建模时排除的字段信息,如图6.4-6所示。图6.4-6排除字段点击“请选择要查看的信息”下拉按钮可以查看“线箱图”、“强、弱势分布雷达图”和“聚类分群特征表”的详细信息,如图6.4-7所示。图6.4-7模型信息查看选择(1)?? 线箱图(选择计算线箱图时才有此项)选择下拉列表框中的“线箱图”,设置查看的字段“年龄”,点击线箱图按钮可查看该字段的线箱图,设置如图6.4-8所示,线箱图如图6.4-9所示,操作说明参照查询5.3.2.1.2节的第三步查看线箱图。图6.4-8选择线箱图字段图6.4-9年龄字段线箱图(2)?? 强、弱势分布雷达图展示通过雷达图可直观的观看每一个聚类中心的所有字段的分布情况。选择图6.4-7中下拉列表框的“强、弱势分布雷达图展示”,弹出字段选择页面,可以选择展示哪些字段的强、弱势分布雷达图,字段选择设置如图6.4-10所示,点击全选按钮,选择全部字段。图6.4-10雷达图字段选择点击图6.4-10的雷达图按钮弹出雷达图,如图6.4-11所示,图形说明请参照9.6节的雷达图。图6.4-11雷达图展示雷达图中,每条闭合的曲线(每种颜色的曲线)代表

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档