- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5Clementine样本的管理ppt课件
第4章 Clementine样本的管理 第4章 Clementine样本的管理 样本管理主要针对样本,实现样本的排序、条件筛选、抽样、浓缩、分类汇总、平衡处理以及数据转置和重新组织等。 样本管理的节点工具放置在节点工具箱的记录选项卡中,还有一些相关节点放置在字段选项卡中。 4.1 样本的排序 通过将样本数据按某个或某几个变量值的升序或降序重新排列,不仅便于浏览数据,而且还能够帮助发现数据可能存在的异常值。 异常值往往是极大值或极小值 通过记录选项卡中的排序节点实现样本排序。 下面以高中学生某学期期末各科考试成绩数据ReportCard.xls为例,说明排序的具体操作。 操作目标:分性别将总成绩按降序排序。 4.1 样本的排序 建立Excel节点读入ReportCard.xls数据 建立导出节点计算总成绩; 选择记录选项卡中的排序节点并将其连接到数据流的相应位置上,其参数设置窗口如图所示。 4.1 样本的排序 在字段列选择排序变量,在顺序列指定升序或降序 这里首先选择性别,指定按升序排序;再选择总成绩,指定在性别相同的情况下按降序排序。 4.2 样本的条件筛选 分析有时只针对某类特征的样本进行,这时要首先给出条件,将满足条件的样本筛选出来。通过记录选项卡中的选择节点实现样本的筛选。 这里仍以高中学生某学期期末各科考试成绩数据ReportCard.xls为例,说明样本筛选的具体操作 操作目标:筛选出总成绩大于500分的所有男生(性别为1)样本。 4.2样本的条件筛选 建立Excel节点读入ReportCard.xls数据; 建立导出节点计算总成绩; 选择记录选项卡中的选择节点并将其连接到导出节点之后,进行参数设置。 在条件框中输入CLEM表达式以表示筛选条件 模式选项 包括:筛选出满足条件的样本 丢弃:剔除满足条件的样本。 4.3 样本的随机抽样 数据挖掘的数据量通常较庞大,海量数据的建模效率往往不高,因此一般可通过在全部样本中随机抽样较少样本并建模的方式,解决这个问题。 样本的随机抽样是在现有数据的基础上,按照随机的原则挑选出部分样本,通过记录选项卡中的样本( Sample,采样)节点实现。 以高中学生某学期期末各科考试成绩数据ReportCard.xls为例。 操作目标:随机抽取70%的样本。 4.3 样本的随机抽样 建立Excel节点读入ReportCard.xls数据,选择样本节点并将其连接到数据流的相应位置上。 4.3 样本的随机抽样 具体参数设置如下。 第一个(First):抽取前N个样本,应指定N的值 N中取1:系统抽样,按照样本顺序每隔n个样本选取1个样本 随机%:按照随机原则抽取一定百分比的样本 注意:如希望随机化抽样结果可以反复出现,应选择设置随机数种子项,还可以单击生成按钮重新生成随机数种子。 Set random seed. When sampling or partitioning records based on a random percentage, this option allows you to duplicate the same results in another session. By specifying the starting value used by the random number generator, you can ensure the same records are assigned each time the node is executed. Enter the desired seed value, or click the Generate button to automatically generate a random value. If this option is not selected, a different sample will be generated each time the node is executed. 4.3 样本的随机抽样 模式选项: 包括样本:选用抽取的样本 丢弃样本:剔除抽取的样本 4.4 样本的浓缩处理 海量数据的随机抽样可在一定程度上提高数据建模的效率,但随机抽样可能带来信息的丢失 样本浓缩处理,试图从另一个角度减少样本数量,是提高数据建模型效率的另一种有效方法。 通过记录选项卡中的区分(Distinct)节点实现样本浓缩处理。 样本的浓缩处理结果就是要得到1.2.3节中提到的浓缩数据。 以1.2.3节表1-1的客户调查数据Customer.xls为例 4.4 样本的浓缩处理 首先建立Excel节点读入Customerd.xls数据。 利用Output卡中的Table节点浏览数据 4.4 样本的
文档评论(0)