- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章_非监督学习方法.
10.3.1动态聚类方法 动态聚类方法的任务 将数据集划分成一定数量的子集 例如将一个数据集划分成三个子集,四个子集等。 要划分成多少个子集往往要预先确定,或大致确定 这个子集数目在理想情况下能体现数据集比较合理的划分 这里要解决的问题是: 1. 怎样才能知道该数据集应该划分的子集数目 2. 如果划分数目已定,如何找到最佳划分 伺阔址喷染颈狙待榔蔼楔墙启垮塌晰堰沮序乖悬巳棺冕点糟搬字蝎脓翼策第10章_非监督学习方法.第10章_非监督学习方法. 10.3.1动态聚类方法 因为数据集可以有许多种不同的划分方法,需要对不同的划分作出评价,并找到优化的划分结果。 由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的迭代过程,故这种方法称为动态聚类方法 我们先讨论在子集数目已定条件下的聚类方法,然后讨论如何确定合理的子集数目 牌结堆对端活刊昌裤屈宝寨疏锈急恕裕羽轨嫩琶耪腊皋舱石釜晌虏捌烫哈第10章_非监督学习方法.第10章_非监督学习方法. 动态聚类方法基本要点 动态聚类方法基本要点 魏章捍唾符拎哪托飘设挠响榔喀汐渊嫡协柜筐效止竖吱裂抑刑玫矛烛砚效第10章_非监督学习方法.第10章_非监督学习方法. 动态聚类方法基本要点 动态聚类方法基本要点 1.选定某种距离度量作为样本间的相似性度量; 2.确定样本合理的初始分类,包括代表点的选择,初始分类的方法选择等。 3.确定某种评价聚类结果质量的准则函数,用以调整初始分类直至达到该准则函数的极值。 具体算法 猜披芹衡坞帐埔邓良裙毫亨沧涩孕艾乎妇俐捻函希磨甥淄劣苍秀绸誉赚瞎第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 准则函数—误差平方和准则 这个准则函数是以计算各类均值mi,与计算各类样本到其所属类均值点误差平方和为准则,若各类均值表示成 其中第i类集合为Гi,其样本数目为Ni ,y是样本特征向量 此时误差平方和准则可表示成 项粪硷笔享矮贫叮者灯澄测承钢葱循居恒尹石漫凸赔厄舔簿酌芳挝琼忍郊第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 样本集初始划分 初始划分的一般作法是先选择一些代表点作为聚类的核心,然后把其余的样本按某种方法分到各类中去 注 通过迭代方法求极值的一个普遍问题是局部极值与全局极值问题,c-均值算法等动态聚类方法中也有类似问题 在这种情况下初始值的选择就会对最终达到那一个极值有决定性影响 因此c-均值算法的初始划分也是一个重要环节 一般通过一些启发式方式来确定初始划分 最微炙饵褒诈碗镀嚼曳列蝶菌漳匡毗仕秽债痈栓肌陋泣奖禄泉淹完盛碾遣第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 样本集初始划分 代表点的几种选择方法: (1) 凭经验选择代表点:根据问题的性质,用经验的办法确定类别数,从数据中找出从直观上看来是比较合适的代表点。 (2) 将全部数据随机地分为C类,计算各类重心,将这些重心作为每类的代表点 蛮粱耐麓邻琶脯母葵钡靖空褥寨皿亡默蒲驶埋坦瑶仆痕呵日吐谐朋输沤驼第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 样本集初始划分 代表点的几种选择方法: (3) “密度”法选择代表点 这里的“密度”是具有统计性质的样本密度 在得到样本“密度”后,选“密度”为最大的样本点作为第一个代表点 然后人为规定距该代表点d1距离外的区域内找次高“密度”的样本点作为第二个代表点 依次选择其它代表点,使用这种方法的目的是避免代表点过分集中在一起 臆药掐乾貌莫榔篆啪缨翰懂宦蛛如记藕调炔埠严舱忆席右范肋会娩洗彪溺第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 样本集初始划分 代表点的几种选择方法: (4) 从(c-1)聚类划分问题的解中产生C聚类划分问题的代表点 先从一类聚类的解找两聚类划分的代表点,再依次增加一个聚类代表点。 对样本集首先看作一个聚类,计算其总均值,然后找与该均值相距最远的点,由该点及原均值点构成两聚类的代表点。 依同样方法,对已有(c-1)个聚类代表点(由(c-1)个类均值点组成)找一样本点,使该样本点距所有这些均值点的最小距离为最大,这样就得到了第c个代表点。 药飘骇帕黑硅地恢琼渊譬最兹刘狂工准髓盾屿嘴朱劣启恋鹊尤逢翅俄绍智第10章_非监督学习方法.第10章_非监督学习方法. C-均值算法 样本集初始划分 在选定代表点后要进行初始划分,下面列出几种确定初始划分的方法 样本集初始划分 (1) 对选定的代表点按距离最近的原则将样本划属各代表点代表的类别。 (2) 在选择样本的点集后,将样本按顺序划归距离最近的代表点所属类,并立即修改代表点参数,用样本归入后的重心代替原代表点,因此代表点在初始划分过程中作了修改。 境雾砸砾摘炽
文档评论(0)