- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等 关键技术。
?数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过 抽取过穆将数据从联机事务处理系统、外部数据源、脱机的数据存储介质屮导入数据仓库。 数据抽取在技术上主耍涉及互连、复制、增最、转换、调度和监控等几个方面的处理。在数 据抽取方瓯,未来的技术发展将集屮在系统功能集成化方面,以适应数据仓库木身或数据源 的变化,使系统更便于管理和维护。
?数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的 表现形式。数据仓库管理所涉及的数据最比传统事务处理大得多,且随时间的推移而快速累 积。在数据仓库的数据存储和管理屮需要解决的是如何管理大量的数据、如何并行处理大量 的数据、如何优化杳询等。目前,许多数据库厂家提供的技术解决方案是扩展么遂型数据览 的功能,将普通关系数据悴改造成适合担卅数据仓库的服务器。
?数据的展现
在数据展现方瓯主耍的方式有:
查询:实现预定义查询、动态杳询、OLAP查询与决策支持智能杳询;报表:产生关系 数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:川易于理解的点线图、 直方图、饼图、网状图、交互式可视化、动态模拟、计算机动曲技术表现复杂数据及其相互 关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖 掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。
编辑木段数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同T作,一方面,可以迎合和简化数据挖掘过程屮的重要步骤, 提高数据挖掘的效率和能力,确保数据挖掘屮数据来源的广泛性和完整性。另一方血,数据 挖掘技术已经成为数据仓库应用屮极为重耍和相对独立的方瓯和工具。
数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应川研究前呆将是令人振 奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从 数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
编辑木段统计学与数据挖掘
统计学和数据挖掘有着共同的日标:发现数据屮的结构。事实上,由于它们的目标相似, 一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因 为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和 机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
1.统计学的性质
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。 相反,我要关注统计学不同于数据挖掘的特性。
差异Z—同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种 趋势是越来越精确。当然,这木身并不是坏事,只有越精确才能避免错误,发现真理。但是 如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不 同意这个观点的,尽管统计学确实以数学为基础(正如物理和T程也以数学为基础,但没有 被认为是数学的分支),但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势:在采用一个方法Z前先要证明,而不是象计 算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同i问题的其它领域 的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾 向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,己经从 机器学习那里继承了实验的态度。这并不意味着数据挖掘T作者不注重精确,而只是说明如 果方法不能产生结果的话就会被放弃。
正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。 尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心 问题就是在观察了样木的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面 我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行 性的原因,我们常常得到的只是一个样本,但是需要描述样木取H的那个大数据集。然而, 数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库屮的所有 客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值), 因为观测到的值也就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述 (例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据 挖掘屮则变得亳无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。 事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现 很容
文档评论(0)