Clementine数据的读入.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Clementine数据的读入

Clementine数据的读入 Clementine数据的读入 Clementine数据挖掘是通过数据流方式实现的 数据流的核心是数据 数据流都是从数据的读入开始,然后是数据的加工管理,继而是数据的建模,最后以模型评价结束。 2.1 变量的类型 变量是数据读入和分析的基本单位 明确变量的类型是数据管理和挖掘的第一步,是实现数据正确加工和分析的前提 变量类型可以从数据挖掘和数据存储两个角度划分 2.1.1 从数据挖掘角度看变量类型 从数据挖掘角度看,变量类型反映了其代表事物的某种特征的类型。 从计量层次方面归纳,变量通常包括以下类型,即数值型变量、定类型变量和定序型变量,后两个类型也统称为分类型变量。 例如 表示客户年龄、家庭人口数的变量是数值型变量 表示性别、职业的变量是定类型变量 表示学历和收入水平的变量是定序型变量 2.1.1 从数据挖掘角度看变量类型 为更细致地反映事物类型,Clementine将变量类型进一步细分为: 连续数值型(Range),如年龄 离散数值型( Discrete),如家庭人口数 二分类型( Flag),如性别 多分类型( 集合,Set),如职业 定序型( Ordered Sets),如学历和收入水平 缺省型( Default):缺省型是一种尚未明确的变量类型 2.1.1 从数据挖掘角度看变量类型 缺省型:用户定义变量时,如仅指定了变量名称而没有输入或读入具体的变量值,此时系统并不能确定该变量的具体类型,于是默认其为缺省型。 系统称这样的变量为非实例化变量。 当用户输入或读入变量值后,系统将根据所输入数据自动将缺省型改为上述其他类型,此时称变量已被实例化。 2.1.1 从数据挖掘角度看变量类型 无类型型( Typeless):对变量值为文字等复杂数据的变量,系统无法将其归到上述前五种类型中,所以指定为无类型型。 无类型型变量通常不参与数据建模。 2.1.2从数据存储角度看变量类型 从数据存储角度看,变量类型反映了数据在计算机中的存储方式。 从存储所占用字节上归纳,变量通常包括以下类型 整数型(Interger) 实数型( Real) 字符串型(String) 时间型(Time) 日期型(Date) 时间戳型(Time Stamp) 2.1.2从数据存储角度看变量类型 时间型和时间戳型的数据表示形式相同,如01:25:30,但含义不同。 时间型表示所持续的时间,如时间持续了1小时25分30秒 时间戳型则表示某个时刻,如某人登录服务器的时间是1点25分30秒。 2.2读入数据 数据挖掘中数据量通常较为庞大,一般存储在数据库中,或者以文本或其他类型的文件形式存储。 数据流都是以从外部读入数据开始的,数据读入的节点放置在节点工具箱的数据源选项卡中,支持 自由格式的文本文件 固定格式的文本文件 SPSS数据文件、SAS数据集 Excel电子表格 数据库文件 读自由格式的文本文件 自由格式 通常一行数据为一个样本 每行数据有相同的列,分别依次对应不同的变量 列之间以逗号等分隔符分隔 变量名一般存储在文件的第一行上 读自由格式的文本文件应通过源选项卡中的可变文件节点实现 读自由格式的文本文件 下面以药物研究数据为例,该数据是自由格式的文本,文件名为DRUG.txt。 首先,选择源选项卡中的可变文件选项节点并将其放置到数据流编辑区域中,右击鼠标,选择弹出菜单中的编辑选项,显示的参数设置窗口如下图所示 读自由格式的文本文件 可变文件节点的参数设置窗口包含文件、数据、筛选、类型和注释五个选项卡。 文件选项卡:指定所读入数据的基本格式。主要参数的含义如下。 文件:指定读入文本文件所在的文件夹和文件名 读自由格式的文本文件 文件选项卡:指定所读入数据的基本格式。其中主要参数的含义如下。 读取文件中的字段名:如果文件中的第一行是变量名,则选择该项;否则不选。 指定字段数:指定文件中包含几个变量列。由于文件中的列是以分隔符分隔的,系统可依此自动判断列数,该选项通常忽略。 读自由格式的文本文件 文件选项卡:指定所读入数据的基本格式。 在定界符中指定文件中的列分隔符(一般为逗号)和行分隔符(通常为新行)。 读自由格式的文本文件 其余参数包括 指定文件中数据开始前是否有几个说明性的字符,读入数据时应跳过 指定压缩各列的前置空格和后置空格 对无效数据是忽略处理还是替换为指定的数值等 数据选项卡 指定所读入数据的基本类型等。 数据选项卡 显示将读入数据的变量名,以及系统根据数据判断出的变量存储类型。 如需修改,先在某变量行的覆盖项上画勾,然后下拉存储框,选择所需的存储类型。 过滤选项卡 过滤选项卡:指定读数据时不读哪些变量并可重新修改变量名。 如不希望读入某变量,只需单击相应行的过滤项,打×即可。 类型选项卡 指定所读数据

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档