科学数据挖掘应用系统的研究与初步设计 [2].pptVIP

科学数据挖掘应用系统的研究与初步设计 [2].ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
科学数据挖掘应用系统的研究与初步设计 周园春 2006年9月3日 目 录 背景 数据挖掘系统的发展现状 科学数据挖掘应用系统 科学数据库 中国科学院作为中国自然科学的研究中心,在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量具有重要科学价值和实用意义的科学数据和资料 科学数据的用途 科研人员研究的成果和积累 支持他们做更为复杂的创新研究不可替代的资源 科学数据库 始建于1983年,45个研究所, 几百个专业数据库,几十几百TB的数据量 数据库的内容覆盖了化学、生物、天文、材料、高能物理、光学机械、自然资源、生态、遥感、大气等数据 科学数据库系统平台 各领域的专业人员可能还开发了各种不同的专业数据库数学模型和专家系统,形成了不同专业的专业咨询系统、科研过程和生产过程模拟系统 缺点:独立的、分散的 学科的交叉融合、新型交叉学科的出现和跨学科领域的大型科学问题的研究:共享和集成 运用先进信息技术来支撑科学数据库的发展和应用的软硬件综合平台 其总体目标是:硬件上满足科学数据库的需求的存储、计算、通信和服务能力;软件上实现对科学数据库中大规模、分布式、异构的海量数据进行整合,实现科学数据资源的共享 存在的问题 只是对数据的共享和协同,还没有对数据进行深加工或者分析 随着科学数据库中数据的不断积累,数据的加工处理,从数据中获取有用的知识,充分挖掘数据资源的价值,变得越来越重要 数据量大而且复杂,完全人工去分析或者查看是不现实也是不可能的 科学数据库中开发数据挖掘应用的问题 首先,数据挖掘过程往往与数据挖掘模型、具体挖掘算法紧密关联,这就带来了技术上和应用推广上的困难 其次,数据挖掘与具体应用结合,就会导致应用范围窄,灵活性差,增加数据挖掘应用开发的难度 能否建立一个 科学数据挖掘应用系统? 目 录 背景 数据挖掘系统的发展现状 科学数据挖掘应用系统 什么是数据挖掘? 数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程 数据挖掘的过程 数据挖掘到数据挖掘系统 研究重点的转移 从发现方法到系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。 理论和应用的结合 数据挖掘是面向应用的多学科交叉领域,应用推动了数据挖掘技术和理论的研究。而数据挖掘系统是数据挖掘研究和应用的桥梁,对数据挖掘技术的推广起到很大的作用 数据挖掘系统 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学 。 数据挖掘系统 如何将现有的算法集中在一个统一的框架下,并且与特定的领域相结合,构造出能被各种层次的用户所接受的数据挖掘应用系统,是数据挖掘系统研究需要迫切解决的问题之一 分类: 横向的数据挖掘工具 纵向的数据挖掘工具 横向的数据挖掘工具 数据挖掘软件需要和以下三个方面紧密结合 数据库和数据仓库 多种类型的数据挖掘算法 数据清洗、转换等预处理工作 “工具集”的数据挖掘软件(1995年) 对各个领域提供多种数据挖掘算法 包括数据的转换和可视化 并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具 。 典型的系统有IBM的Intelligent Miner、SAS Enterprise Miner、SPSS Clmentine、SGI的MineSet、Oracle Darwin等 缺点 只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 纵向的数据挖掘工具 1999年开始就出现纵向的数据挖掘解决方案,即基于工具集,针对特定的应用提供完整的数据挖掘方案 典型应用 KDI(主要用于零售业)、OptionsChoice(主要用于保险业)、HNC(欺诈行为侦测)和Unica Model(主要用于市场) 特点 很强的针对性,能够满足特定的应用需求 用户能专注于具体的应用问题,对具体算法无须了解。 缺点 应用范围是纵向的,过于狭窄,灵活性不够。比如为某个银行定制的信用卡数据挖掘方案可能不适合其他银行。 数据挖掘系统 纵向的还是横向的数据挖据应用系统,都很少考虑到科学数据挖掘,大多都是应用于商业、金融等领域 目 录 背景 数据挖掘系统的发展现状 科学数据挖掘应用系统 科学数据挖掘应用系统的目标 希望在“十五”的基础上形成的大规模的科学数据资源上,结合现有的元数据定义的规范,为各个建库单位提供统一的、良好可扩展性和灵活性的科学数据挖掘平台 各建库单位根据自身数据的特征来定制领域模型,平台根据这些业务模型来实现对科学数据进行分析和挖掘,最后以可视化的形式把结果呈现给科研人员和科研管理人员,使得科研人员能够从数据的背后进行更加深入科研的活动,同时也为科研

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档