- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘系统设计技术分析
【摘要】数据挖掘技术则是商业智能(BusinessIntelligence)中最高端的,
最具商业价值的技术。数据挖掘是统计学、机器学习、数据库、模式识别、人工
智能等学科的交叉,随着海量数据搜集、强大的多处理器计算机和数据挖掘算法
等基础技术的成熟,数据挖掘技术高速发展,成为21世纪商业领域最核心竞争
力之一。本文从设计思路、系统架构、模块规划等方面分析了数据挖掘系统设计
技术。
【关键词】数据挖掘;商业智能;技术分析
引言
数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学
科。它可广泛应用于电信、金融、银行、零售与批发、制造、保险、公共设施、
政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。数据
挖掘应用的领域非常广阔,广阔的应用领域使用数据挖掘的应用前景相当光明。
我们相信,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,
使企业管理者得到更多的商务智能。
1、参考标准
1.1挖掘过程标准:CRISP-DM
CRISP-DM全称是跨行业数据挖掘过程标准。它由SPSS、NCR、以及
DaimlerChrysler三个公司在1996开始提出,是数据挖掘公司和使用数据挖掘软
件的企业一起制定的数据挖掘过程的标准。这套标准被各个数据挖掘软件商用来
指导其开发数据挖掘软件,同时也是开发数据挖掘项目的过程的标准方法。挖掘
系统应符合CRISP-DM的概念和过程。
1.2olefordm
olefordm是微软于2000年提出的数据挖掘标准,主要是在微软的SQL
SERVER软件中实现。这个标准主要是定义了一种SQL扩展语言:DMX。也就
是挖掘系统使用的语言。标准定义了许多重要的数据挖掘模型定义和使用的操作
原语。相当于为软件提供商和开发人员之间提供了一个接口,使得数据挖掘系统
能与现有的技术和商业应用有效的集成。我们在实现过程中发现这个标准有很多
很好的概念,但也有一些是勉为其难的,原因主要是挖掘系统的整体概念并不是
非常单纯,而是像一个发掘信息的方法集,所以任何概念并不一定符合所有的情
况,也有一些需要不断完善和发展中的东西。
1.3PMML
PMML是1999年由DMG发布了1.0版本,他主要是一个基于XML的模型
描述语言,利用XML的描述能力来表达各种挖掘模型和规则。标准化的描述使
得各个不同的厂商的软件之间可以共享,交换这些挖掘模型。所以他主要是一种
模型和规则的描述语言。
1.4对于标准的基本判断
CRISP-DM的流程已经成为业界的基本认识,但他更像一个项目指导思想,
而不是单纯硬性规范。olefordm规范了挖掘模型和操作原语,使挖掘软件能有
效,简单的整合进现有的企业软件架构,对于推动挖掘软件的使用和普及意义非
凡。但olefordm的规则模型对于结构复杂,形态各异的模型规则用简单的平面
表来表示就显得非常怪异,而PMML正好弥补了这个缺陷,PMML利用了XML
的描述能力,能有效的描述挖掘模型和规则。
挖掘服务器主要以上我们对于这些标准的基本判断为基础,吸收CRISP-DM
和olefordm的核心的优良概念,在实际开发中我们也是根据实际需求来拓展了
一些概念和修正了一些做法,为客户和开发使用人员提供更好的软件。
2、软件功能设计
2.1设计思想
数据挖掘系统的构架设计采用如下的原则:
采用分层的设计,模块化的原则
采用先进和成熟的技术
使用C++语言使用(C/C++语言是实现服务器级别软件的首选);使用泛型
思想,面向对象技术;使用STL容器或开发STL更优化的C++容器。
标准性
系统的设计和开发遵循国际标准和行业标准;符合CRISP-DM规定的数据
挖掘项目实施的过程流程标准,遵循olefordm规范中挖掘模型和操作原语;使
用DMX作为用户的接口来驱动数据挖掘过程。
良好的可扩展性
系统支持多个层面的可扩展性,通过快速开发/重组、参数配置等多个方面
使得系统可以实现客户未来不断变化的需求;系统有合理的层次结构;要有较强
的扩展能力,可快速方便的插入新算法;系统要求支持平台无关性,能够适应多
种主流主机平台、数
文档评论(0)