大数据的处理和分析培训资料.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的处理和分析培训资料.ppt

* * * * * * * * * * * * * * * * * * * b n 大数据的处理 X: Y: Z: 当矩阵很大时,可用MapReduce 实现矩阵运算。对于分块乘: 1. Map任务计算两块的乘,用结 果在Z中的位置作为键 2. Reduce任务按键值来分别累加 Map任务的结果 b n 大数据的处理 X: Y: Z: 当矩阵很大时,可用MapReduce 实现矩阵运算。对于分块乘: 1. Map任务计算两块的乘,用结 果在Z中的位置作为键 2. Reduce任务按键值来分别累加 Map任务的结果 当矩阵很大时,可用MapReduce 实现矩阵运算。对于分块乘: 1. Map任务计算两块的乘,用结 果在Z中的位置作为键 2. Reduce任务按键值来分别累加 Map任务的结果 b n 大数据的处理 X: Y: Z: b n 大数据的处理 X: Y: Z: 当矩阵很大时,可用MapReduce 实现矩阵运算。对于分块乘: 1. Map任务计算两块的乘,用结 果在Z中的位置作为键 2. Reduce任务按键值来分别累加 Map任务的结果 b n 大数据的处理 X: Y: Z: 当矩阵很大时,可用MapReduce 实现矩阵运算。对于分块乘: 1. Map任务计算两块的乘,用结 果在Z中的位置作为键 2. Reduce任务按键值来分别累加 Map任务的结果 大数据分析的关键技术 要挖掘大数据的大价值,必须对大数据进行内容 上的分析与计算 深度学习 大数据的出现提供了使用复杂 (而不是简单或浅层) 的模型来有效地表征和解释数据的机会,深度学习就是利用层次化的架构学习出对象在不同层次上的表达 (例:降低语音识别错误率) 知识计算 要对大数据进行高端分析,就需要从大数据中抽取出有价值的知识,并将其构建成可支持查询、分析和计算的知识库,涉及知识库的构建、多源知识的融合和知识库的更新 大数据的分析 大数据的分析 大数据分析的关键技术 社会计算 是现代计算技术与社会科学之间的交叉学科, 它是指面向社会活动、社会过程、社会结构、社会组织和社会功能的计算理论和方法。在线社会计算包括在线社会网络的结构分析、信息传播模型以及信息内容的分析、建模与挖掘等 可视化 不同于传统的信息可视化,大数据可视化的最大挑战源自其数据规模:如何提出新的可视化方法,它能够帮助人们分析大规模、高维度、多来源、动态演化的信息,并辅助作出实时的决策 大数据的分析 PageRank初步 PageRank(网页排名)通过对网络浩瀚的超链接关系的分析来确定一个页面的等级 Google把从A页面到B页面的链接解释为A页面给B页面投票,B页面从A页面的投票能得多少分还与A页面的等级有关 一个页面的PageRank,由所有给它投票的页面的数量和重要性,经过迭代计算得到 这项技术使得Google成为第一个能够战胜作弊者的有哪些信誉好的足球投注网站引擎。当然,与作弊者之间的斗争永远不会停止 大数据的分析 PageRank初步 1. 早期有哪些信誉好的足球投注网站引擎与词项作弊 有哪些信誉好的足球投注网站引擎:词项出现在网页头部比在普通正文的得分高、词项在网页中出现的次数越多得分越高 作弊者:在自己的网页上增加热门词项, 如movie, 并重复很多次,以提高与movie的相关性。词项movie在该网页上的颜色与背景色一样,以掩盖作弊者的不道德行为 大数据的分析 PageRank初步 2. Google的对策 使用PageRank技术来模拟Web漫游者的行为:他们从随机页面出发,每次从当前网页随机地选择出链前行,该过程可以迭代多次。最终,较多漫游者访问的网页则重要性较高。在决定查询应答顺序时,Google把重要页面放在前面 在判断网页内容时, 不仅考虑网页上出现的词项,还考虑有链接指向该网页的网页中所使用的词项 大数据的分析 PageRank初步 3. 最简单的PageRank举例 PageRank:网页集?实数,值越大则网页越重要 定义网页的Web迁移矩阵M来描述随机漫游者的下一步访问行为 例:从A出发,以1/3的概率 访问B、C和 D,访问A的 概率为0 0 1/2 1 0 1/3 0 0 1/2 1/3 0 0 1/2 1/3 1/2 0 0 A B C D M = A B C D 大数据的分析 PageRank初步 3. 最简单的PageRank举例 随机漫游者位置的概率分布可通过一个n维向量v来描述,每个分量表示处于相应网页的概率 例(续):假定处于各网页的初始概率相等 Mkv是随机漫游者k步后的概率分 布向量 A B C D 0

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档