网站大量收购闲置独家精品文档,联系QQ:2885784924

电站数据分析..docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电站数据分析.

基于关联规则算法的电站数据挖掘数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是多学科和多种技术交叉结合的新领域,它综合了机器学习、数据库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、可视化等领域的有关技术,因而数据挖掘的方法极其丰富。电厂的历史数据库中存储了大量的数据,这些数据的背后隐藏了许多对提高电厂的生产效率、经济安全性有积极的指导意义的信息。火电厂的过程运行参数具有强关联性,本文用基于关联规则的数据挖掘技术进行数据开采,通过使用weka数据挖掘平台对电厂的实时运行数据进行挖掘,了解数据挖掘的目的、过程,理解数据挖掘的结果,并能够根据所学知识,对挖掘的过程参数和结果数据进行分析,以发现数据隐藏的更深层次的规律,充分发挥大量历史数据对电力生产的指导作用。1 关联规则算法描述关联规则的挖掘是数据挖掘领域一个非常重要的研究课题,己经广泛地用于各种数据分析。关联规则挖掘技术用来发现所有可能的规则,用这些规则来解释某些属性的出现和另一些属性的出现的相关性。一条形如X ?Y”的关联规则表示:对于一部分事务,在特定的概率下属性集 X 的一个值决定了属性集 Y 的一个值。这就是说,关联规则目的就是发现数据库属性之间的并发模式。例如,从一家超市的顾客购物数据记录中得出一条关联规则“在 10%的事务中,85%的顾客买了牛奶也会买酸乳酪。”1.1 基本概念设是项的集合,任务相关的数据D是数据库事务的集合,每个事务T是项的集合,使得T?I。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当A?T。关联规则是形如A?B的蕴含式,其中A?I,B?I,A∩B=φ。规则A?B在事务集D中成立,具有支持度s,其中s是D中事务包含A∪B(即A和B两者)的百分比,它是概率P(A∪B)。规则A?B在事务集D中具有置信度c,如果 D中包含A的事务同时也包含B的百分比是c,这是条件概率 P(B|A),即:同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,用0%和100%之间的值而不是用 0 到 1 之间的值表示支持度和置信度。项的集合称为项集(itemset),包含k个项的项集称为k—项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数和计数。项集满足最小支持度 min_sup,如果项集的出现频率大于等于 min_sup 与 D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集(frequent itemset),频繁 k-项集的集合通常记为Lk。关联规则的挖掘是一个两步的过程:找出所有频繁项集:这些项集出现的频繁性至少和预定义的最小支持计数一样。由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。1.2 关联规则的分类关联规则分类方法包括:根据规则中所处理的值类型:如果规则考虑的关联是项的存在与不存在则它是布尔关联规则。如果描述的是量化的项或属性之间的关联,则它是量化关联规则。根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则。如果规则涉及两个或多个维,则它是多维关联规则。根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则,称所挖掘的规则集由多层关联规则组成。反之,如果在给定的规则集中,规则不涉及不同抽象层的项或属性,则该集合包含单层关联规则。根据关联挖掘的各种扩充:关联挖掘可以扩充到相关分析,那里可以识别项是否相关,还可以扩充到挖掘最大频繁模式和频繁闭项集。最大模式是频繁模式 p,使得 p 的任何真超模式都不是频繁的,其中如果 b 是 a 的子模式,即如果 a 包含 b,称 a 是 b 的超模式。如果 a 真包含 b,则称 a 是 b 的真超模式。频繁闭项集是一个频繁的闭的项集,其中项集 c 是闭的,如果不存在 c 的真超集c,使得每个包含 C的事务也包含c。使用最大模式的频繁闭项集可以显著地压缩挖掘所产生的频繁项集数。1.3 Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法的名字基于这样的事实:算法使用频繁项集性质的先验知识,它采用一种称作逐层有哪些信誉好的足球投注网站的迭代方法,k—项集用于有哪些信誉好的足球投注网站(k+l)—项集。首先,找出频繁1—项集的集合,该集合记作L1,L1用于找频繁2—项集的集合L2 ,而L2用于找L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要一次数据库扫描,为提高频繁项集逐层产生的效率,一种称为Apriori性质的重要性质用于压缩有哪些信誉好的足球投注网站空间。Apriori 性质是指:频繁项集的所有非空子集都必须也是频繁的,它基于如下观察:

文档评论(0)

jiulama + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档