英文文献不确定性数据挖掘:一种新的方向.doc

英文文献不确定性数据挖掘:一种新的方向.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
外 文 出 处: Proceeding of Workshop on the (用外文写) of Artificial,Hualien,TaiWan,2005 不确定性数据挖掘:一种新的研究方向 Michael Chau1, Reynold Cheng2, and Ben Kao3 1:商学院,香港大学,薄扶林 2:计算机系,香港理工大学九龙湖校区,香港 3:计算机科学系,香港大学,薄扶林 由于不精确或抽数据不确定性UK-means聚类算法为例来阐明传统K-means算法怎么被改进来处理数据挖掘中的数据不确定性。 1.引言 由于测量不精确、抽样误差、过时数据来源或其他等原因,数据往往带有不确定性性质。特别在需要与物理环境交互的应用中,如:移动定位服务[15]和传感器监测[3]。例如:在追踪移动目标(如车辆或人)的情境中,数据库是不可能完全追踪到所有目标在所有瞬间的准确位置。因此,每个目标的位置的变化过程是伴有不确定性的。为了提供准确地查询和挖掘结果,这些导致数据不确定性的多方面来源不得不被考虑。 在最近几年里,已有在数据库中不确定性数据管理方面的大量研究,如:数据库中不确定性的表现和不确定性数据查询。然而,很少有研究成果能够解决不确定性数据挖掘的问题。我,不确定性数据不再。 图1(a)表示一组目标的真实数据,而图1(b)则表示记录的已过时的这些目标的位置。如果这些实际位置是有效的话,那么它们与那些从过时数据值中得到的数据集群有明显差异。如果我们仅仅依靠记录的数据值,那么将会很多的目标可能被置于错误的数据集群中。更糟糕地是,一个群中的每一个成员都有可能改变群的质心,因此导致更多的错误。 图1 数据图 图1.(a)表示真实数据划分成的三个集群(a、b、c)。(b)表示的有些目标(隐藏的)的记录位置与它们真实的数据不一样,因此形成集群a’、b’、c’和c”。注意到a’集群中比a集群少了一个目标,而b’集群中比b集群多一个目标。同时,c也误拆分会为c’和c”。(c)表示方向不确定性被考虑来推测出集群a’,b’和c。这种聚类产生的结果比(b)结果更加接近(a)。 我们建议将不确定性数据的概率密度函数等不确定性信息与现有的数据挖掘方法结合,这样在实际数据可利用于数据挖掘的情况下会使得挖掘结果更接近从真实数据中获得的结果。 本文研究了不确定性怎么通过把数据聚类当成一种激励范例使用使得不确定性因素与数据挖掘相结合。我们称之为不确定性数据挖掘问题。在本文中,我们为这个领域可能的研究方向提出一个框架。 文章接下来的结构如下。第二章是有关工作综述。在第三章中,我们定义了不确定性数据聚类问题和介绍我们提议的算法。第四章将呈现我们算法在移动目标数据库的应用。详细地的实习结果将在第五章解释。最后在第六章总结论文并提出可能的研究方向。 2.研究背景 近年来,人们对数据不确定性管理有明显的研究兴趣。数据不确定性被为两类,即已存在的不确定生和数值不确定性。在第一种类型中,不管目标或数据元组存在是否,数据本身就已经存在不确定性了。例如,关系数据库中的元组可能与能表现它存在信任度的一个概率值相关联[1,2]。在数据不确定性类型中,一个数据项作为一个封闭的区域,与其值的概率密度函数(PDF)限定了其可能的值[3,4,12,15]。这个模型可以被应用于量化在不断变化的环境下的位置或传感器数据的不精密度。在这个领域里,大量的工作都致力于不精确查找。例如,在[5]中,解决不确定性数据范围查询的索引方案已经被提出。在[4]中,同一作者提出了解决邻近等查询的方案。注意到,所有工作已经把不确定性数据管理的研究结果应用于简化数据库查询中,而不是应用于相对复杂的数据分析和挖掘问题中。 在数据挖掘研究中,聚类问题已经被很好的研究。一个标准的聚类过程由5个主要步骤组成:模式表示,模式定义,模式相似度量的定义,聚类或分组,数据抽象和造工核Hamdan与Govaert已经通过运用EM算法解决使混合密度适合不确定性数据聚类的问题 [8]。然而,这个模型不能任意地应用于其他聚类算法因为它相当于为EM定制的。在数据区间的聚类也同样被研究。像城区距离或明考斯基距离在模糊聚,一个是数据簇由一。模糊C均法一不同的模糊聚 在图2中,我们提出一种分类法来阐述数据挖掘方法怎么根据是否考虑数据不准确性来分类。有很多通用的数据挖掘技术,如: 关联规则挖掘、数据分类、数据聚类。当然这些技术需要经过改进才能用于处理不确定性技术。此外,我们区分出数据聚类的两种类型:硬聚类和模糊聚类。硬聚类旨在通过考虑预期的数据来提高聚类的准确性。另一方面,模糊聚类则表示聚类的结果为一个“模糊”表格。模糊聚类的一个例子是每个数据项被赋予一个被分配给数据簇的任意成员的概率。 图2.

您可能关注的文档

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档