- 1、本文档共24页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
客户端组件: CLI:command line interface,命令行接口。 Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。 WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。 * Hive常用优化方法 join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。 join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大。原因:hive在对每行记录操作时会把其他表先缓存起来,直到扫描最后的表进行计算 在where字句中增加分区过滤器。 当可以使用left semi join 语法时不要使用inner join,前者效率更高。原因:对于左表中指定的一条记录,一旦在右表中找到立即停止扫描。 如果所有表中有一张表足够小,则可置于内存中,这样在和其他表进行连接的时候就能完成匹配,省略掉reduce过程。设置属性即可实现,set hive.auto.covert.join=true; 用户可以配置希望被优化的小表的大小 set hive.mapjoin.smalltable.size=2500000; 如果需要使用这两个配置可置入$HOME/.hiverc文件中。 * * Hive常用优化方法 同一种数据的多种处理:从一个数据源产生的多个数据聚合,无需每次聚合都需要重新扫描一次。 limit调优:limit语句通常是执行整个语句后返回部分结果。set hive.limit.optimize.enable=true; 开启并发执行。某个job任务中可能包含众多的阶段,其中某些阶段没有依赖关系可以并发执行,开启并发执行后job任务可以更快的完成。设置属性:set hive.exec.parallel=true; hive提供的严格模式,禁止3种情况下的查询模式。 a:当表为分区表时,where字句后没有分区字段和限制时,不允许执行。 b:当使用order by语句时,必须使用limit字段,因为order by 只会产生一个reduce任务。 c:限制笛卡尔积的查询。 合理的设置map和reduce数量。 jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次数。 * * * 大数据处理系统 ——存储管理 mongoDB * 大数据的存储平台大多采用NoSQ数据库系统,它能充分利用分布式计算机平台 的特点,具有更好的存储和访问效率。 NoSQL的崛起 * * NoSQL全称是Not Only Sql,指的是非关系型的数据库。NoSQL数据库主要应用于web2.0的大规模系统,具有模式灵活、最终一致性、面向海量数据、分布式、开源、水平可扩展、配置简单、非关系型等特点。 存储类型 NoSQL产品 特性 列式存储 Hbase、Cassandra Hypertable 按列存储数据,最大的特点是方便存储结构和半结构化数据,方便做数据压缩,针对某一列或者某几列的查询有非常大的 I/O 优势 键值存储 Redis、TokyoCabinet Tokyo Tyrant、Flare 可以通过键快速查询到值。一般来说,存储不管值的格式,照单全收 文档式存储 MongoDB、CouchDB 文 档 存 储 一 般 用 类 似JSON 格式存储,存储的内容是文档类型的,这样也就有机会对某些字段建立索引,实现关系型数据库的某些功能 对象式存储 db4o Versant 通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据 mongoDB简介 * MongoDB是一个介于关系数据库和非关系数据库之间的产品 MongoDB是一个开源的、模式自由的、面向文档存储的、分布式的数据库 MongoDB 是由C++语言编写的开源数据库系统 MongoDB服务端可运行在Linux、Windows或OS?X平台,支持32位和64位应用 数据模型 * MongoDB 数据库是一个面向集合且模式自由的文档类型数据库。 1. 面向集合 面 向 集 合 是 指 数 据 被 分 组 存 在 在 数 据 集 中 , 被 称 为 一 个 集 合 (Collencton==table)。集合类似于关系型数据库的表(table) ,不同于表的是,集合不需要定义任何模式,集合在存储文档,一个文档类似于关系型数据库的一条记录。在 Mongo
您可能关注的文档
- matlab软件与数学建模.ppt
- Matlab软件应用与开发).ppt
- MatLab运行环境介绍.ppt
- MATLAB遗传算法工具箱及其应用.ppt
- MATLAB音频信号的分析与合成程序.ppt
- Matlab:一维数组及其应用.ppt
- MaxPlusII简易用户使用入门38页.ppt
- MaxPlusII简易用户使用入门指南.ppt
- MAX《文献查阅》会议论文检索.ppt
- maya制作动画片中的流光.ppt
- 河南省郑州市第一中学2017-2018学年高一下学期周测物理试题(325)扫描版含答案.doc
- 山西省怀仁县第一中学2017-2018学年高二下学期第一次月考生物试题扫描版.doc
- 河南省六市高三下学期第一次联考试题(3月)理科综合扫描版含答案.doc
- 四川省高三全国Ⅲ卷冲刺演练(一)文综地理试卷扫描版含答案.doc
- 河南省洛阳市高三第二次统考文综试卷扫描版含答案.doc
- 甘肃省靖远县高三下学期第二次联考理科综合试题扫描版含答案.doc
- 问题导学法在办公场景中的实施策略及效果评估.docx
- 退休后的个人品牌打造与传播策略.docx
- 问题解决在办公流程优化中的应用.docx
- 问题导向的办公环境创新设计.docx
文档评论(0)