面向服务的分布式数据挖掘.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向服务的分布式数据挖掘 刘军丹 2011-04-29 /portal/web/csdl/doi/10.1109/MIC.2006.88 主要内容: 综述。 数据挖掘趋于分布式。 数据挖掘趋向于面向服务。 基于BPEL4WS的DDM处理。 使未经过检查的数据有意义。 局部数据抽象分层。 从局部抽象得到全局模型。 DDM的两个应用。 积极开发自主的DDM 。 未来的工作。 综述 数据挖掘如今面临着两个挑战 : 如何使数据挖掘服务具有即时性和自主性; 如何挖掘分布式的和具有私密性的数据 . 为了解决这些问题,作者采用了BPEL4WS(基于web服务的业务流程执行语言)的面向服务的DDM (分布式数据挖掘)平台来编辑DDM的服务组件,并且满足全局性的数据挖掘需求。他们也使用了从抽象学习(learning-from-abstraction)的方法来实现对隐私保护的DDM。最后他们举例说明如何在隐私性政策强制添加的进程中实现小范围自治,以帮助实现面向服务系统的自治。 综述 大多数的数据挖掘算法假定,为了随后进行的频繁的数据运算,数据分析人员愿意聚集从服务器的产生式系统中提取的数据。然而,在实际情况中有的涉及到了数据的隐私问题(例如,存储在银行服务器中的客户信息)以及受到数据传输时的带宽限制(影响远程实验室中的仪器或者超级计算机TB级字节的科学数据的传输)。 研究表明,随着上述这些情况的增多,为了挖掘数据而进行数据的聚集几乎是不可能的。相反,寻求一种保证数据私密性的分布式数据挖掘算法是十分必要的。另外,在当今变化莫测的市场中,需要在恰当的时机为人们提供准确的信息以支持商业决策。人们事先并不知道数据隐私的要求,能否提供面向需求和自适应的服务以便使这些公司能够处理来自异构数据库中的数据,这些需求对分布式数据挖掘(DDM)提出了新的挑战。 综述 我们可以从两个方面来说明这些挑战: 1 、分布式数据计算架构是否可以支持无缝整合、集成以及协调实时性和自主性的数据挖掘服务。 2、具有潜意识的必威体育官网网址的数据挖掘算法能否在框架的顶层执行。 在这篇文章中,描述了他们创造的一种新颖的分布式数据挖掘(DDM)算法:面向服务的从抽象学习(learning-from-abstraction)的平台,这种平台的底层处理采用BPEL4WS语言。他们使用一种基于模型的方法来抽象化局部数据和分析全局数据。 这种方法有如下优点: 控制数据隐私; 在进行数据挖掘的同时,能减少互联网的信息传输量; 减小对全局数据分析计算的复杂性; 支持自我调整的数据挖掘过程。 他们通过两个具体DDM应用来解释他们的方法:分布式数据聚集和分布式数据多种可视化。 数据挖掘趋于分布式 现存的DDM项目大多数是通过构建一组“分布式”专家服务来解决问题,其中每一个服务都有特殊的应用目的(有的进行数据清洗、有的进行数据预处理、有的进行数据挖掘)。为了自动构建每一步,人们经常使用规划算法,有时结合一个数据挖掘过程本体。 然而在这篇文章中作者对“分布式”有另一种理解。他们的兴趣点在于发现完全数据集中隐藏的模式。其中,这些数据集在逻辑上是分区的,物理上分布在不同的数据源上。(这两种关于DDM的概念绝不是孤立,而在一个完整的DDM平台上是共存的。)一个全局性的中介性服务协调了一组相同功能的专家服务,每个服务用同样的方式处理同一问题的不同部分(也就是说,在不同数据分区上执行局部分析处理)。然后,这个中介服务在局部结果的基础上进行进一步的分析从而得到全局性的结果 。 数据挖掘趋于分布式 这篇文章描述了关于DDM的不同方法,分布式的关联规则挖掘几乎是最具有代表性的和广泛研究的数据挖掘实例。当然,Andreas L. Prodromidis 和Philip K.Chan已经考虑到一种结合基于水平分割(按记录分割,不同的记录可以分开保存,每个子表的列数相同。)数据的决策树分类器的元学习过程。 Hillo Kargupta和他的同事第一次提出了集合数据挖掘,它适用于垂直分割数据,如果这些数据集是正交集的话能够结合局部数据源的直接结果。异质性存在于各级隐私涉及的不同局部数据源中,因此一些调查研究平衡这两方面的冲突性需求——数据隐私和挖掘精度。 数据挖掘趋向于面向服务 SOAs(面向服务式架构)是通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。由于最近形成的Web服务相关的标准和技术,使得这个概念在过去几年很盛行,这些标准和技术包括WSDL(web服务描述语言),UDDI(通用描述、发现与集成服务,是核心的Web服务标准之一),SOAP(简单对象访问协议)。 可行的web服务(Web-service-e

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档