- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
华北科技学院
课程考查报告
班级:软件B121姓名:_梁高荣
学号:201207044107
课程名称:数据仓库与数据挖掘
课程性质:专业选修
开设学期:2015-2016学第1学期
考核成果:______________________________
任课老师:栾尚敏
201511月20日
书目
TOC\o1-3\h\z\u一.数据仓库2
1.仓库的概念2
2.数据仓库的特点2
3.据仓库的结构3
1.数据挖掘的概念4
2.数据挖掘的作用4
四、数据挖掘的步骤5
1.信息收集5
2.数据规约:6
3.数据清理6
4.数据变换6
5.数据挖掘过程6
6.模式评估6
7.学问表示7
五、数据挖掘常的基本技7
1.统计学7
2.聚类分析和模式识别7
3.决策树分类技术7
4.人工神经网络和遗传基因算法8
5.规则归纳8
6.可视化技术8
六、文本挖掘8
1.文本挖掘的概念8
2.文本挖掘方法8
3.挖掘工具9
4.应用9
七、Web挖掘9
1.Web挖掘与Web信息检索9
2.Web挖掘的任务10
3.Web文本挖掘方法12
一.数据仓库
1.仓库的概念
数据仓库(DataWarehouse)是一个面对主题的(SubjeclOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史改变(TimeVariant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面对分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后依据主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
2.数据仓库的特点
依据数据仓库概念的含义,数据仓库拥有以下四个特点:
????(1)面对主题。操作型数据库的数据组织面对事务处理任务,各个业务系统之间各自分别。数据仓库中的数据是依据一定的主题域进行组织。主题是一个抽象的概念,是指用户运用数据仓库进行决策时所关切的重点方面,一个主题通常与多个操作型信息系统相关。
????(2)集成的。面对事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必需消退源数据中的不一样性,以保证数据仓库内的信息是关于整个企业的一样的全局信息。
????(3)相对稳定的。操作型数据库中的数据通常实时更新,数据依据须要与时发生改变。数据仓库的数据主要供企业决策分析之用,所涉与的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般状况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只须要定期的加载、刷新。
????(4)反映历史改变。操作型数据库主要关切当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如起先应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和将来趋势做出定量分析和预料。
????企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的概念,只有把信息与时交给须要这些信息的运用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并与时供应应相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
3.据仓库的结构????整个数据仓库系统是一个包含四个层次的体系结构:
????数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。
????数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式确定了它有别于传统数据库,同时也确定了其对外部数据的表现形式。要确定采纳什么产品和技术来建立数据仓库的核心,则须要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,依据主题进行组织。数据仓库依据数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
????OLAP服务器:对分析须要的数据
文档评论(0)