- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
AI时代的大数据
?
?
堵俊平
大数据的发展阶段
大数据技术发展分为三个阶段:
第一,起步阶段。大数据的起步是在2003年左右,以Google的三篇大数据论文为标志,从号称“大数据的三驾马车”开始。一篇论文解决的是分布式存储问题,一篇论文解决的是分布式计算问题,还有一篇论文解决的是分布式数据库访问的问题。Google三篇论文发表之后,2006年hadoop就横空出世了,從而开启了整个大数据时代。
大数据发展的前提,是要有海量的数据产生。在这个前提之下,人们对于数据处理的能力、数据分析的能力,有着与数据大规模增长相适应的需求,从而催生出新的技术。
第二,发展阶段。Hadoop问世之后,以Hadoop为核心构建的大数据开源生态系统也生机勃勃。后面像hbase,一个开源的NoSQL,加上后面出来的一些基于Hadoop的SQL引擎,从而让整个大数据走向了数仓的时代。
再后来出现了storm,它是引领流计算的重要产品,包括SparkStreaming,都是一脉相承的。后面到Hadoop2.0也就是YARN时代,计算执行引擎跟资源管理进行了剥离,从而诞生了统一的资源调度平台,调度不同大数据的应用,整个Hadoop或者大数据的生态圈在往前继续的进化,出现了像Spark这种大数据内存计算非常优秀的引擎,它的开源也进一步推动了大数据技术快速发展。
第三,成熟阶段。近两年,大数据的重要发展期是Hadoop迈上了3.0后,开启了大数据拥抱容器化、与云整合的过程。未来大数据跟AI会有更多样的融合,因为整体的技术趋势是往“从数据到智能”这个方向发展的。
AI与大数据的关系
在大数据的技术生态圈里,看不到太多AI的影子。大数据解决什么问题?数据的处理、数据分析、数据的计算等相关的问题,在存储方面,有新兴的数据湖存储;关于大数据分析,有SQL引擎,还有其他更多的选择,每种引擎都有自己的特点,这就是大数据的技术生态圈。
在AI技术生态圈,则是另外一番景象。不管是传统的H2O机器学习,还是TensorFlow,MxNet,PyTorch,,Caffee等深度学习的框架,看起来没有太多大数据的影子。
由此看来,大数据的生态圈和AI的技术生态圈是相互独立的,是没有太多关联依赖的两个技术生态圈。但实际上,这两个生态圈是有融合趋势的。
那么,AI真的能够脱离大数据吗?传统机器学习对数据处理规模的依赖相对还小一些,现在深度学习和超大规模的神经网络潮流兴起之后,人们会发现:
第一,不管是受过模型的训练还是做模型的推理,都离不开大量的数据,数据是最重要的生产资料,脱离了数据,AI模型、算法都会成为无本之木、无源之水。
第二,有强大的数据预处理平台,对AI模型本身的训练,包括后面的推理都会起到强大的促进作用,相对于传统的机器学习,深度学习对于预处理的要求会更高。数据预处理的能力越强,会加速整个深度学习的进度,包括模型的精准度,也会有一个提高。
第三,在技术层面上,两个社区也开始相互对接融合。在深度学习方面,有一些数据处理、数据交换的标准,还有新工具在不断的产生,例如tf.data,tf.transform等;另外大数据领域也会更好地支持AI框架,比如像Intel开源的BigDL、腾讯开源的Angel,以及包括Databricks提出来的氢计划等,都是在大数据平台做深度学习,所以可以看到未来这两个社区或者两种技术在不断进行融合。
从整体来看,AI也好,大数据也好,会形成闭环。AI机器学习的过程从一开始原始数据的导入到进行数据预处理,再到模型的训练,再把训练好的模型应用到数据上做模型推导,整个过程形成一个闭环。这里面既有AI算法相应的参与,也有大数据平台能力的体现。这对现有技术提出了很多新的要求,比如当前的这些部署很多都存在CPU计算集群,做大数据的预处理或者做后面模型的推导,而用GPU集群来做模型的训练。目前,这两个集群在很多情况下是分散处理的,在闭环里形成了一个割裂的状况。
首先是能有一个统一的平台,在底层有调度的能力,能同时调度好AI模型训练、推理以及做数据预处理的任务。其次是在应用层面上,大数据的这一套软件栈跟AI训练框架之间要有一个高效做数据与模型交换的机制和协议,这两块也是近期技术的热点和突破点。总体而言,当前AI和大数据技术生态圈应该是互相共生、共同推进的状况。
大数据技术发展趋势
大数据技术的发展趋势,是从传统的数据仓库向数据湖的方向演进。下面谈谈数仓体系架构的演进历史。
第一,传统的数仓体系。最早出现的是数据库一体机,是由单独的硬件软件所构成,这种数仓的问题也很明显,它需要一个专有的硬件设计,你只要用的不是通用的硬件,一般成本都会比较高。此外,它的扩展性非常差,往前推十年、二十年是可以的,但是在这样的大数据时代,大家都不想随意地抛
您可能关注的文档
- 互联网背景下林业生产经营管理的优化策略.docx
- 分析建筑施工中的清水混凝土模板施工.docx
- EPC总承包模式工程项目管理探讨.docx
- 互联网+环境下公共图书馆智慧服务策略研究.docx
- 2024-2025学年小学英语六年级上册冀教版(三起)(2024)教学设计合集.docx
- 2024-2025学年小学科学五年级下册冀人版(2024)教学设计合集.docx
- 2024-2025学年小学劳动五年级上册湘人版《劳动实践指导手册》教学设计合集.docx
- 2024-2025学年高中语文必修三北师大版教学设计合集.docx
- 2024-2025学年小学科学二年级下册粤教粤科版(2017秋)教学设计合集.docx
- 2024-2025学年初中物理八年级上册(2024)人教版(2024)教学设计合集.docx
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
最近下载
- 数系的扩充与复数的概念教学设计.doc VIP
- 结婚函调报告表.docx
- 氢燃料电池用全氟型质子交换膜.pdf VIP
- 人教版数学二年级上册第四单元《表内乘法(一)》单元整体作业设计.docx VIP
- 2.5 跨学科实践:制作隔音房间模型(课件)人教版(2024)物理八年级上册.pptx VIP
- 大学生心理健康教育.pptx VIP
- 高中信息技术 粤教版必修2《信息系统的安全风险防范》(单元教学设计).pdf VIP
- Unit 2 Reading for writing课件 外研版(2024)七年级英语上册.pptx VIP
- 教科版物理八年级上册第六章 质量与密度 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
- 非自然叙事学_尚必武.pdf
文档评论(0)