dw 1 概述 数据仓库的体系结构 组成 维模型 qbai 21-08-2006.ppt

dw 1 概述 数据仓库的体系结构 组成 维模型 qbai 21-08-2006.ppt

  1. 1、本文档共158页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: baiqy@ 数据仓库与数据挖掘 数据仓库与数据挖掘是90年代发展起来的技术,由于其实用性和带来的效益,十年来有较大的发展,出现了相应的理论、技术、算法、工具、产品。各高校逐渐开设这门课程。 数据仓库 是一种体系结构,是一个以用户为中心的数据集 成环境。 数据挖掘 是一个新兴学科,有方法论、方法、算法,尚未 完全形成一套完善的理论体系。 数据仓库与数据挖掘 数据仓库 将多年积累的不同数据源,经“整合” 成一个有组织的便于分析的结构化的数据环境,以给用户和决策者进行分析。 ----是组织数据方法。 数据挖掘: 从数据中找出(推出,归纳出,预测,挖掘)有用的信息、规律、知识。 ----是分析数据方法。 数据仓库与数据挖掘 数据仓库和数据挖掘 是数据分析、决策支持系统、知识管理……的基础。 广泛用于 客户关系管理(CRM)、供应链管理(SCM)、企业资源计划(ERP)、人力资源管理分析、企业经营效率分析、销售渠道分析、行为分析、各种分析预测系统、欺诈行为、电子商务、电子政务,…… 应用较多的部门与领域 电信、金融、税务、海关、各类大型企业(工厂、公司、商场)、国家部门、科学部门、Web环境…… 1. 信息的重要性(1/2) 随着“信息时代”的到来,人类在生活和生产中除物质与能量需求外,对信息的需求迫切起来, “信息”资源起了越来越重要的作用。 计算机技术和通讯技术的发展使人类获取、积累、传播、处理信息的手段增多、增快。 信息技术正在高速发展,已成为社会进步,国家强盛的标志。 1. 信息的重要性(2/2) 过去: 人们只关注物质、能量的生产量,如人们关注企业生产多少产品、商店有多少种和多少量商品、销售多少物品、卖出多少物品。 现在: 人们关注重点是生产的产品的销售对象、物品的销路状况、物品的流通和库存状况;商品来源、物流的畅通、人们的需求、库存的减少信息、客户的满意度。有用信息获得、信息的管理成为人们更关注的问题。 2. 信息技术的影响(1/2) 信息技术,特别是计算机技术、互连网技术、数字化技术和通讯技术的发展正在改变人类的生产和生活方式。 高速宽带网普及、压缩技术、无线技术、多媒体技术使发布系统(文字和多媒体)和无线传播系统更丰富和有效。 万亿次CPU、TB级内存、PB级存储、机群、网格…使资源共享成为现实。 2. 信息技术的影响(2/2) 数字地球、数字图书馆、数字电子出版物等数字化技术给人类带来了极大方便,人类将进入了一个全新的数字时代。 电子商务、电子政务、商业智能、各种“金”字工程都是信息化的一部分,使人类步入一个信息化的新时代。 以信息技术为支撑的人工智能技术、生物信息学、生命科学以更快的速度发展。 3. 信息处理的支撑技术 微电子技术 计算机硬件 计算机软件 通信技术 各种理论方法和技术 4. 数据(1/6) 什么是数据? 数据是事物、概念或指令的一种形式化表示形式,以适合人工或自然方式进行通信、解释或处理。数据是描述事务的符号纪录,数据是信息的载体。 //有时不同符号表示同一事,有时同一符号表示不同的事。 4. 数据(2/6) 数据的表示: 数值、数字、文字、图形、图像、声音、多媒体、对象 …… 如 234.5-----数值 ----数字 Student, 计算机科学,----文字 张某 35岁 软件工程师 月薪3000元---- 对象 三角形 (三个边的值)---- 图形 照片…… 所有数据要放在计算机中,都要数字化。 4. 数 据(3/6) 数 据 集: 数据集是从某个环境或过程中取得的一系列测量结果。如 n个对象,每个对象都有 p 个测量结果。 员工:编号,姓名,性别,年龄,职位,薪水… 患者:姓名,性别,年龄,体温,症状… 形成n×p 数据矩阵,n 行 p 列。 n个对象(个体/实体/实例/事例/记录) p个测量(变量/特征/属性/字段) X=(x1, x2, ……xp) X(i)= (x1 (i) , x2 (i) , …xp (i) )---第i个对象, 0 i ≤n 4. 数据(4/6) 4. 数 据(5/6) 大数据集 1. n 数值大: 达到亿级, 纪录多,如人口普查、社保、购物、Web 日志。 2. p 数值大 属性多,如指纹识别、汉字识别、文本、网

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档