基于遗传算法的大数据分析技术研究.pdfVIP

基于遗传算法的大数据分析技术研究.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于遗传算法的大数据分析技术研究

摘要:本文对遗传算法在数据挖掘中的应用进行了广泛的研究,阐明了数

据挖掘的定义和常用技术,对遗传算法在数据挖掘领域中实现的原理和目前应用

进行了详细阐述,并讨论了遗传算法在数据挖掘中所面临的问题。

关键字:遗传算法;数据挖掘

1.

引言

近年来,数据挖掘(DataMining)已成为企业热门的话题。简单来说数据

挖掘就是在庞大的数据库中寻找出有价值的隐藏信息。更广义的说法是:数据挖

掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。在当今这样

一个数据爆炸但知识相对贫乏的时代,如何解决数据过多造成的问题,此时就需

要用到数据挖掘技术。然而在各种数据挖掘方法中,都有其自身的局限性。遗传

算法是基于生物进化原理的一种自适应优化方法。将数据挖掘技术与遗传算法相

结合,可以使其更有效的发挥二者各自的特点,弥补彼此的不足,并把遗传算法

运用在数据挖掘系统中能够较好地解决数据挖掘技术中出现的问题。

1.

概述

2.1数据挖掘的含义

从技术上讲,数据挖掘(DataMining)就是从大量的、不完全的、有噪声

的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、

但又有潜在有用的信息与知识的过程。这个定义包含了数层含义:数据源必须是

真实的、大量的、含噪声的;知识发现的是用户感兴趣的知识;发现的知识要可

接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现

问题。这里所指的知识发现,不是要求发现放之四海而皆准的真理,也不是要去

发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。事实上,所

有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还

要能够易于被用户理解。它最好能用自然语言表达所发现的结果。

从商业角度讲:数据挖掘是一种新的商业信息处理技术,其主要特点是对商

业数据库中的大量业务数据进行抽取、转换、分析以及其他模型化处理,从而提

取出辅助商业决策的关键性数据。因此,数据挖掘又可以描述为:按企业既定业

务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的

规律性,并进一步将其模型化的先进有效的方法。

2.2数据挖掘常用的技术方法

1.

统计分析

统计分析方法使利用统计、概率的原理对关系中各属性进行统计分析,从而

找出他们之间的关系和规律。

1.

人工神经网络

神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据

生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理

网络。电脑常识

1.

决策树

决策树利用树型结构来表示决策集合,这些决策集合通过对数据集的分类而

产生规则。首先,利用训练集生成一个测试函数,根据不同取值建立树的分支,

在每个分支子集中建立下层节点和分支,生成一棵决策树;然后对决策树进行剪

枝处理;最后把决策树转换为规则,并且利用这些规则对新事例进行分类。

SAAS

1.

聚类算法

聚类算法是通过对变量的比较,把具有相似性特征的数据归为一类。因此,

通过聚类算法以后,数据集就转化为类集。在类集中,同一类数据具有相似的变

量值,而不同类数据的变量值不具有相似性。聚类算法主要用于描述和发现数据

库中以前未知的数据类别。

1.

可视化技术SOA

可视化技术是通过直观的手段来交互的分析数据关系,采用图形方式将信息模式、

数据的关联或趋势呈现给用户。例如,把数据库中的多维数据编程多种图形,揭

示数据的状况、内在本质及规律。

1.

遗传算法

遗传算法是一种基于自然选择和遗传变异等生物进化机制的全局性概率有哪些信誉好的足球投注网站

算法。它在形式上是一种迭代方法。从选定的初始解出发,通过不断迭代逐步改

进当前解,直至有哪些信誉好的足球投注网站到最优解或满意解。本文就是采用遗传算法在数据挖掘中的

应用进行研究分析。

2.3遗传算法

遗传算法(GeneticAlgorithm,缩写为GA)也称为进化算法,从字面上看

是继承生物学的,根据达尔文的“自然选择,优胜劣汰”学说,随着外界环境的

变化,生物适应环境的特征被子代继承下来,不适应环境的特征被淘汰。从形象

[1]

上理解生物正不断向最优的方向进化。当基因从一代传递到下一代时,经过选

择、交叉

文档评论(0)

133****5817 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档