大数据的处理和试题.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的处理和分析 ;课 程 内 容;讲 座 提 纲;数据挖掘 数据挖掘的定义 1. 从数据中提取出隐含的过去未知的有价值的潜 在信息 2. 从大量数据或者数据库中提取有用信息的科学 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理?数据挖掘?数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果;数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布?牛奶 ;大数据 大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息 在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况或判定研究质量等 这样的用途正是大型数据集盛行的原因 数据挖掘则是探讨用以解析大数据的方法 ;大数据案例—谷歌预测冬季流感的传播 2009年出现了一种称为甲型H1N1的新流感病毒,在短短几周内迅速传播开来,全球的公共卫生机构都担心一场致命的流行病即将来袭 美国也要求医生在发现甲型H1N1病例时告知疾病控制与预防中心。但人们从患病到求医会滞后,信息传到疾控中心也需要时间,因此通告新病例往往有一两周的延迟。而且疾控中心每周只进行一次数据汇总 信息滞后两周对一种飞速传播的疾病是致命的,它使得公共卫生机构在疫情爆发的关键时期难以有效发挥作用;大数据案例—谷歌预测冬季流感的传播 在这种流感爆发的几周前,谷歌的工程师在《自然》杂志发表引人注目的论文,令公共卫生官员和计算机科学家感到震惊 因为文章不仅预测了流感在全美的传播,而且具体到特定的地区和州 谷歌是通过观察人们在网上的有哪些信誉好的足球投注网站记录来完成这个预测的,这种方法以前一直是被忽略的 谷歌保存了多年来所有的有哪些信誉好的足球投注网站记录, 每天有来自全球30亿条有哪些信誉好的足球投注网站指令(仅谷歌有这样的数据资源),如此庞大数据资源足以支撑和帮助它完成这项工作 ;大数据的魅力;大数据的魅力;大数据的魅力;大数据的魅力;大数据的魅力;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据时代的思维变革;大数据的处理;大数据的处理;MapReduce编程模型 MapReduce是一种比较专用的并行编程模型,面向大数据集上的可并行化的问题 Map完成过滤或分类,例如,它把数据集中所有的人按姓氏分成若干队列,每个姓氏一个队列; Reduce完成概括总结操作,例如,计算各姓氏队列中的人数,产生按姓氏的人口比例 MapReduce可以在并行计算机、计算机集群和计算机网格上实现;MapReduce编程模型 计算过程如图所示 程序员只需编 写Map和Reduce 函数 1. Map任务 执行Map函数的 多个任务并行执行 每个Map任务把文 件块转换成“键-值” (key-value)对序列 ;MapReduce编程模型 2. 按键组合 其处理方式与 两个函数无关 把“键-值”对序 列组成“键-值表”对 序列 把各“键-值表”对 分发给Reduce任务 按键组合由主控 程序完成 ;MapReduce编程模型 3. Reduce任务 执行Reduce函 数的多个任务并 行执行 每个Reduce任务 把“键-值表”对中 的值以某种方式组 合,转换成“键-值” 对输出 ;;;;;;;;大数据分析的关键技术 要挖掘大数据的大价值,必须对大数据进行内容 上的分析与计算 深度学习 大数据的出现提供了使用复杂 (而不是简单或浅层) 的模型来有效地表征和解释数据的机会,深度学习就是利用层次化的架构学习出对象在不同层次上的表达 (例:降低语音识别错误率) 知识计算 要对大数据进行高端分析,就需要从大数据中抽取出有价值的知识,并将其构建成可支持查询、分析和计算的知识库,涉及知识库的构建、多源知识的融合和知识库的更新;大数据的分析;大数据的分析;大数据的分析;大数据的分析;大数据的分析;大数据的分析;大数据的分析;大数据的分析;大数据的分析;小 结;

文档评论(0)

***** + 关注
实名认证
内容提供者

我是自由职业者,从事文档的创作工作。

1亿VIP精品文档

相关文档