网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘技术在空管自动化系统中研究.docxVIP

数据挖掘技术在空管自动化系统中研究.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

数据挖掘技术在空管自动化系统中研究

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

摘要:随着民航业的发展,航班量的递增,对空管自动化系统数据的研究提出新的需求。数据挖掘技术也是现在主流的数据分析的方法,在各个领域都有研究应用,本文介绍了数据挖掘的大致流程,为未来挖掘技术在空管数据中的应用奠定基础。

关键字:数据挖掘;空管自动化;

一、数据挖掘的大致流程

通过对数据挖掘技术及空管自动化系统运行数据的特点的研究,为了达到对空管数据的充分的研究利用,数据挖掘可以按照下图1所示瀑布式过程展开。主要包括构建数据集、数据清洗、数据集成、数据规约、数据变换、数据离散化、分类分析、聚类分析的过程。

图1数据挖掘过程

二、数据挖掘流程的阐述

2.1构造数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。数据挖掘时,首先要做的是从原始数据范围中选择合适的数据,也就是提取数据,构建所需的数据集。根据对业务需求的理解,在系统研制过程中,可以预先创建并内置一批数据集,例如收集飞行计划的信息、告警信息等。

FLIGHT_PLAN_dataset//飞行计划数据集

STCA_dataset//短期冲突告警数据集

2.2数据清洗

现实世界的数据往往是不完整的、有噪声的和不一致的。数据清理的目的就是去填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

空管自动化系统的原始数据因为种种原因,会有所缺失。例如,经常因为管制员不做INHIBITED操作而造成最后一个扇区出界时间的丢失;航班因雷雨或者限制等绕飞,无具体的过点信息等。

数据清理中,处理缺失值的方法有很多,包括简单的忽略元组、人工填写缺失值、常量补充缺失值、中心度量值填充缺失值、最可能值填充缺失值等。

2.3噪声数据

噪声(noise)是被测量的变量的随机误差或方差。根据空管自动化系统的数据的特点可以采用数据光滑技术来消除噪声数据。

分箱(binning)方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱方法考察近邻的值,因此它可以进行局部光滑。

回归(陀gression):也可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得二个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

离群点分析(outlieranalysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。

许多数据光滑的方法也用于数据离散化(一种数据变换形式)和数据归约。例如,上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法(如决策树归纳),它反复地在排序后的数据上进行比较,这充当了一种形式的数据归约。

2.4数据集成

数据挖掘经常需要通过数据集成以合并来自多个数据存储的数据。数据集成有助于减少数据集的冗余和不一致,有助于提高其后挖掘过程的准确性和速度。数据集成包含实体识别问题、数值和标称数据的相关性检验、元组重复、数据值冲突的检测与处理。

例如实体识别,来自多个信息源的现实世界的等价实体如何才能匹配?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的uid与另一个数据库中的rec_id指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据。

在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。

2.5数据规约

数据归约(datareduction)技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。数据归约策略包括维归约、数量归约和数据压缩。

维归约(dimensionalityreduction)减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原数据变换或投影到较小的空间。

数量归约(numerosityreduction)用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据。

数据压缩(datacompression)使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。

2.6数据变换

在数据预处理阶段,数据被变换或统一,使得挖掘过程可能更有效,

文档评论(0)

150****5008 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档