WEKA中文详细教程讲解.ppt

下载文档 降价啦

98
0
约2.58万字
约 300页
2019-12-24 发布于四川
举报
版权申诉
保障服务

WEKA中文详细教程讲解.ppt

1、本文档共300页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * 选择单独的二维散点图在散点图矩阵的一个元素上点击后，会弹出一个单独的窗口对所选的散点图进行可视化。数据点散布在窗口的主要区域里。上方是两个下拉框选择用来选择打点的坐标轴。左边是用作 x 轴的属性；右边是用作 y 轴的属性。在 x 轴选择器旁边是一个下拉框用来选择着色的方案。它可以根据所选的属性给点着色。在打点区域的下方，有图例来说明每种颜色代表的是什么值。如果这些值是离散的，可以通过点击它们所弹出的新窗口来修改颜色。 * * 打点区域的右边有一些水平横条。每一条代表着一个属性，其中的点代表了属性值的分布。这些点随机的在竖直方向散开，使得点的密集程度能被看出来。在这些横条上点击可以改变主图所用的坐标轴。左键点击改变 x 轴的属性；右键点击改变 y 轴的。横条旁边的“X”和“Y”代表了当前的轴用的那个属性（“B”则说明 x 轴和 y 轴都是它）。属性横条的上方是一个标着 Jitter 的游标。它能随机地使得散点图中各点的位置发生偏移，也就是抖动。把它拖动到右边可以增加抖动的幅度，这对识别点的密集程度很有用。如果不使用这样的抖动，几万个点放在一起和单独的一个点看起来会没有区别。 * * * * 在y轴选择按钮的下方是一个下拉按钮，它决定选取数据点的方法。 * * 可以通过以下四种方式选取数据点： Select Instance. 点击各数据点会打开一个窗口列出它的属性值，如果点击处的点超过一个，则更多组的属性值也会列出来。 Rectangle. 通过拖动创建一个矩形，选取其中的点。 Polygon. 创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶点，右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭合的。 Polyline. 可以创建一条折线把它两边的点区分开。左键添加折线顶点，右键结束设置。折线总是打开的（与闭合的多边形相反）。 * * 使用 Rectangle，Polygon 或 Polyline 选取了散点图的一个区域后，该区域会变成灰色。这时点击 Submit按钮会移除落在灰色区域之外的所有实例。点击Clear按钮会清除所选区域而不对图形产生任何影响。如果所有的点都被从图中移除，则 Submit 按钮会变成 Reset 按钮。这个按钮能使前面所做的移除都被取消，图形回到所有点都在的初始状态。最后，点击Save按钮可把当前能看到的实例保存到一个新的 ARFF 文件中。 * * 数据可视化举例 * * * * * * * * * * * * 点击“Save”，把聚类结果保存成bank_Cluster.arff文件。可以在写字板中打开观察聚类结果文件。在这个新的ARFF文件中，“instance_number”属性表示某实例的编号，“Cluster”属性表示聚类算法给出的该实例所在的簇。 * * 7、关联规则associations WEKA关联规则学习能够发现属性组之间的依赖关系: 例如，milk, butter ? bread, eggs (置信度 0.9 and 支持数 2000) 对于关联规则L-R 支持度（support）—— 同时观察到前件和后件的概率 support = Pr(L,R) 置信度（confidence）—— 出现前件时同时出现后件的概率 confidence = Pr(L,R)/Pr(L) * * 关联规则挖掘的主要算法 WEKA数据挖掘平台上的关联规则挖掘的主要算法有： Apriori--能够得出满足最小支持度和最小支持度的所有关联规则。 PredictiveApriori--将置信度和支持度合并为预测精度而成为单一度测量法，找出经过预测精度排序的关联规则。 Terius--根据确认度来寻找规则，它与Apriori一样寻找其结论中含有多重条件的规则，但不同的是这些条件相互间是‘或’，而不是‘与’的关系。这三个算法均不支持数值型数据。事实上，绝大部分的关联规则算法均不支持数值型。所以必须将数据进行处理，将数据按区段进行划分，进行离散化分箱处理。 * * * * 算法属性设置 * * car：如果设为真，则会挖掘类关联规则而不是全局关联规则。 classindex：类属性索引。如果设置为-1，最后的属性被当做类属性。 delta：以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport：最小支持度下界。 metricType：度量类型，设置对规则进行排序的度量依据。可以是：置信度（类关联规则只能用置信度挖掘），提升度(lift)，平衡度(leverage)，确信度(conviction)。 minMtri

您可能关注的文档

文档评论（0）

共享文档 + 关注: 实名认证

内容提供者

二级建造师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年10月07日上传了二级建造师

1亿VIP精品文档

更多 >

WEKA中文详细教程讲解.ppt