- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘前数据准备工作.ppt
* 数据挖掘前的数据准备 数据准备的重要性 数据准备技术 数据导入 数据的过滤和采样 清洗数据 派生数据 将数据准备应用到产品中 数据准备的重要性 数据挖掘和预测分析 在已有的数据中找到数据间的模式和关系 利用找到的模式和关系进行预测 垃圾进 / 垃圾出 分析的结果是基于数据质量的 不可能发现数据中没有的内容 我们需要的是高质量的正确的数据 高质量的正确的数据 完整性 实时性 准确性 对与错 demonstration 数据准备技术 Transact-SQL (T-SQL) 利用高性能的T-SQL语句在数据源处进行数据准备工作 SQL Server 2005 Integration Services (SSIS) 连接多种不同的数据源获取数据 Microsoft? Office Excel? 2007 友好、通俗易懂,尤其适合非专业人员 第三方工具 数据导入 数据挖掘引擎中使用 OLE DB 和 ADO.NET 根据具体情况配置数据导入环境 使用 Business Intelligence Development Studio (BIDS) 使用Data Mining Client for Excel add-in for Excel 2007插件 BIDS中的数据导入 数据源 OLE DB 或 ADO.NET 数据源视图 源数据的元数据视图 计算列 命名查询 虚拟关系 Excel中的数据导入 Excel 表 使用Excel add-in插件中的分析工具 Excel ranges 导入数据 Microsoft Query Add-ins 不适用于数据透视表动态的视图 外部数据源 创建新数据源 使用来自SQL Server 2005 Analysis Services中一个实例的数据源 数据导入的例子 demonstration 过滤和采样 (1) 过滤或移除没有用的数据 例如,只有男性或女性两种性别的顾客 对案例采样以减少案例数据的数量 减少训练时间 注意使用正确的键进行采样 例如: customers, transactions, or line items 过采样保证采样数据的平衡 例如:使用更大的采样范围来平衡采样中的男女比例 当一些案例的数据很少的时候时用此方法 过滤和采样(2) 在 SQL Server 2005 数据挖掘中 在数据源视图中进行过滤工作 在数据源视图中进行采样工作 在 SQL Server 2008 数据挖掘中 在挖掘结构中进行过滤工作 在Excel Add-in插件中 准备样本Preparing samples 过采样Oversampling 过滤表 在SSIS中进行过滤和采样工作 在数据源出进行过滤 使用“条件分支”控件进行过滤 采样技术 随机采样 行计数采样 过采样 过滤和采样操作 demonstration 清洗数据 检测和修改错误 了解错误的情况 在数据源处修改错误 使用 SQL Server Integration Services 修改错误 检测和修改异常 了解异常情况 使用 SQL Server Data Mining Add-in for the 2007 Office system 插件解决 使用 SQL Server Integration Services 解决 处理空值 处理重复的记录和模糊匹配 清洗数据 demonstration 派生数据 离散的列 例如:性别 离散化列 例如:将年龄分组(年轻,年老)优于连续的年龄值(16,18,72,75) 计算出新的列 从其他列中的值派生 离散化列 说明 将一个连续列中的值分成多个组或桶,并生成新的列。这些桶中的值是有序的、离散的。 例如:年龄组比连续的年龄更好 自动创建 确定桶的数量 确定方法 自动, 群组, 等面积 创建自己的桶 使用 T-SQL Case语句 使用 SSIS 派生列 使用 SQL Server Data Mining Add-in for the 2007 Office system Exploring and preparing data 派生列 一些例子 两个日期间的时间间隔 货到时间 – 下单时间 距离某件事情的时间 感恩节前的几天, 距离退休的年份 比率 体质指数 总计 每年支持电话的数量 创建新的派生列 使用 T-SQL 在数据源视图中 命名计算 命名查询 在 SSIS 中 派生列 在 Excel 中 使用公式 数据离散化 demonstration 将数据准备应用到项目中 数据挖掘是一个迭代过程 不要期望首次就能够成功 尝试各种不同的假设和技术 测试并且确认这些尝试 决定何时在那里准备数据 在源头自动地准备 在规定的时间执行SSIS包 在Excel中根据需要随时准备
文档评论(0)