大数据下的机器学习算法探究.docxVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

大数据下的机器学习算法探究

?

?

潘颖辉

摘要:随着信息库中的信息总量日渐庞杂,信息处理变得越来越困难,互联网逐渐步入了大数据时代。大数据顾名思义,意味着互联网使用者需要管理、分析和反馈日常生活中产生的大量数据。而机器学习算法对于数据收集,分析和集成非常有效。

关键词:大数据;机器学习;算法

:G642????:A

:1009-3044(2020)32-0187-02

1大数据的特点

大数据的特点最初由维克托和肯尼斯在二人编写的《大数据时代》中提出,分别为volume(数据量大),velocity(输入和处理速度快),variety(数据多样性)和value(价值密度低),俗称为“4V”特点,这种说法与归纳受到了大家的广泛认同并在后续研究中被频繁引用[1]。

2传统的机器学习相关理论

机器学习在近年来研究人工智能的技术中占据的地位和比重已经越来越大,并发展成了一门涉及统计学、凸分析(Convexanalysis)、概率性等多领域的交叉性学科[2]。

2.1机器学习类型

机器学习的类型大致分为监督学习、半监督学习、无监督学习、强化学习、自学习、异常检测和机器人学习。

监督学习是用一组现有的培训数据样本使被监督的对象达到应有性能的学习过程,大多数是用于学习一个具体功能的机器学习任务。在监督学习中,每组示范数据的例子都包括输入对象和期望的输出值。半监督学习使用的训练数据介于没有任何标记的训练数据和有完全标记的训练数据之间。无监督学习从输入的未标记的一组数测试据中查找结构和学习,通常通过识别数据中的共性来判断新数据中有无这种共性并做出反应,基于这种特点,无监督学习通常被运用于统计和总结。强化学习是包括监督学习和非监督学习在内的三大机器学习范式之一。自学习是一种没有外部反馈和监督的学习,是有自学习能力的神经网络,被称为Crossbar自适应阵列(CAA)。异常检测是对于那些观察结果与大多数数据结果不同的数据的怀疑和识别行为。机器人学习是机器学习算法在学习过程中自动生成的相当于“课程表”的学习经验序列表,通过计算机的自动探索和交互积累经验和获取新技能[3]。

2.2机器学习主要算法

机器学习中算法主要分为决策树算法、SVM算法、朴素贝叶斯、Adaboost算法和K均值算法。

决策树算法可用于直观地表达决策和描述数据,其中的主要算法是ID3算法和C4.5算法。二分迭代法器3(ID3)是C4.5算法的前提,其用处是在数据集里处理和生成决策树。C4.5是ID3算法的扩展,C4.5由于其生成的决策树可在分类部分使用常常被当作统计分类器[4]。

SVM算法,被称为支持向量机或支持向量网络,属于监督学习的机器学习算法。SVM算法在多維度空间中构建了一组超平面用于分类、预测以及其他工作。SVM分为线性和非线性两种,若是线性的,可以用两个平行的超平面分割两种不同类别的数据来使两者的间隔扩大;若是非线性分类,则每个点积都可以使用非线性核函数进行替代。

朴素贝叶斯是贝叶斯定理中较为简单的概率分类器,是一种文本分类方法:把从有限集合中绘制的模型标签定义于问题实例的数据,表示为特征值的向量。这种训练分类数据方法的算法不是单一的,只要有这一原理的算法都可以使用。

Adaboost算法的全称是AdaptiveBoosting,该算法更适合与其他的机器学习算法一并使用来提高计算机的学习能力。

K均值算法,此类算法最初来自信号处理,分区数据观测到集群中,通过集群中心对数据进行建模从而找到可比较的空间范围的数据集群,该算法是机器学习的重要基础。

2.3传统的机器学习遇到的挑战

传统机器学习的问题在于,虽然算法看起来很复杂但缺乏智能性,仍需要大量专业知识和人为干预来处理大数据。大量应用功能需要计算机领域的专家来识别和操作,以便于降低大数据对于传统机器学习的复杂性以及方便传统机器学习算法生效。除此之外,传统机器学习的学习处理过程也略显拖沓,大大增加了处理信息所需的时间。

机器学习可以通过开发高效快速的算法和数据驱动模型来实时处理大数据,从而产生准确的结果和分析,这是任何人工操作和其他传统计算机操作面对大数据都无法达到的成果,因此在大数据背景下的机器学习是必要的。

3大数据下的机器学习算法

3.1大数据处理的基本策略

大数据处理机器学习的基本策略大致分为分治策略和大数据抽样。

分治策略的原理是基于多分支递归的算法,其工作原理是将一个复杂的问题拆分成数个相同或相似的子问题,待子问题足够简单后将解决子问题的方法带入最初的问题中加以解决。分治策略对于大数据处理的一个重要优势在于优化,如果在处理数据的每一步将有哪些信誉好的足球投注网站空间减少进而整个算法的渐进复杂度与修剪步骤相同,取决于对几何序数求和,这就是所谓的检索功能[5]。

大数据抽样在机器学习中更是相当重

您可能关注的文档

文档评论(0)

136****2310 + 关注
实名认证
文档贡献者

安全员持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年11月17日上传了安全员

1亿VIP精品文档

相关文档