- 1、本文档共300页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 选择单独的二维散点图 在散点图矩阵的一个元素上点击后,会弹出一个单独的窗口对所选的散点图进行可视化。 数据点散布在窗口的主要区域里。上方是两个下拉框选择用来选择打点的坐标轴。左边是用作 x 轴的属性;右边是用作 y 轴的属性。 在 x 轴选择器旁边是一个下拉框用来选择着色的方案。它可以根据所选的属性给点着色。 在打点区域的下方,有图例来说明每种颜色代表的是什么值。如果这些值是离散的,可以通过点击它们所弹出的新窗口来修改颜色。 * * 打点区域的右边有一些水平横条。每一条代表着一个属性,其中的点代表了属性值的分布。这些点随机的在竖直方向散开,使得点的密集程度能被看出来。 在这些横条上点击可以改变主图所用的坐标轴。左键点击改变 x 轴的属性;右键点击改变 y 轴的。横条旁边的“X”和“Y”代表了当前的轴用的那个属性(“B”则说明 x 轴和 y 轴都是它)。 属性横条的上方是一个标着 Jitter 的游标。它能随机地使得散点图中各点的位置发生偏移,也就是抖动。把它拖动到右边可以增加抖动的幅度,这对识别点的密集程度很有用。 如果不使用这样的抖动,几万个点放在一起和单独的一个点看起来会没有区别。 * * * * 在y轴选择按钮的下方是一个下拉按钮,它决定选取数据点的方法。 * * 可以通过以下四种方式选取数据点: Select Instance. 点击各数据点会打开一个窗口列出它的属性值,如果点击处的点超过一个,则更多组的属性值也会列出来。 Rectangle. 通过拖动创建一个矩形,选取其中的点。 Polygon. 创建一个形式自由的多边形并选取其中的点。左键点击添加多边形的顶点,右键点击完成顶点设置。起始点和最终点会自动连接起来因此多边形总是闭合的。 Polyline. 可以创建一条折线把它两边的点区分开。左键添加折线顶点,右键结束设置。折线总是打开的(与闭合的多边形相反)。 * * 使用 Rectangle,Polygon 或 Polyline 选取了散点图的一个区域后,该区域会变成灰色。 这时点击 Submit按钮会移除落在灰色区域之外的所有实例。 点击Clear按钮会清除所选区域而不对图形产生任何影响。 如果所有的点都被从图中移除,则 Submit 按钮会变成 Reset 按钮。这个按钮能使前面所做的移除都被取消,图形回到所有点都在的初始状态。 最后,点击Save按钮可把当前能看到的实例保存到一个新的 ARFF 文件中。 * * 数据可视化举例 * * * * * * * * * * * * 点击“Save”,把聚类结果保存成bank_Cluster.arff文件。可以在写字板中打开观察聚类结果文件。在这个新的ARFF文件中,“instance_number”属性表示某实例的编号,“Cluster”属性表示聚类算法给出的该实例所在的簇。 * * 7、 关联规则associations WEKA关联规则学习能够发现属性组之间的依赖关系: 例如,milk, butter ? bread, eggs (置信度 0.9 and 支持数 2000) 对于关联规则L-R 支持度(support)—— 同时观察到前件和后件的概率 support = Pr(L,R) 置信度(confidence)—— 出现前件时同时出现后件的概率 confidence = Pr(L,R)/Pr(L) * * 关联规则挖掘的主要算法 WEKA数据挖掘平台上的关联规则挖掘的主要算法有: Apriori--能够得出满足最小支持度和最小支持度的所有关联规则。 PredictiveApriori--将置信度和支持度合并为预测精度而成为单一度测量法,找出经过预测精度排序的关联规则。 Terius--根据确认度来寻找规则,它与Apriori一样寻找其结论中含有多重条件的规则,但不同的是这些条件相互间是‘或’,而不是‘与’的关系。 这三个算法均不支持数值型数据。 事实上,绝大部分的关联规则算法均不支持数值型。所以必须将数据进行处理,将数据按区段进行划分,进行离散化分箱处理。 * * * * 算法属性设置 * * car:如果设为真,则会挖掘类关联规则而不是全局关联规则。 classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。 delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport: 最小支持度下界。 metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。 minMtri
文档评论(0)