- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据存储技术.docx大数据存储技术.docx
大数据存储技术
刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉5
1,2,3,4,5(清华大学 计算机科学与技术系,北京 100084)
Abstract:Big data analysis compared with the traditional data warehouse applications, with a large amount of data and complex query analysis, etc. Big data storage because of its itself exists 4 v characteristics, the traditional storage technology can not meet the needs of large data storage, data resources through the ETL technology was extracted from the source system, and is converted into a standard format, then using NoSQL database for database access management, make full use of the network cloud storage technology enterprise storage cost saving, efficiency advantage, through a distributed network file system to store data information in the Internet network resources, using visual operating interface to satisfy the users data processing requirements at any time.
Key words: Data acquisition (ETL), data access (NoSQL), cloud storage, distributed file systems, visualization
摘 要: 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。
关键词: 数据采集(ETL)、数据存取(NoSQL)、云存储、分布式文件系统、可视化
引言
在学术界,Nature早在2008年就推出了Big Data专刊[1]。计算社区联盟(Computing Community Consortium)在2008年发表了报告《Big9Data Computing: Creating revolutionary breakthroughs in commerce, science, and society》 [2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science 在2011年2月推出专刊《Dealing with Data》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《Challenges and Opportunities with Big Data》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。
业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。
大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。
ETL技术
随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可
您可能关注的文档
- 大学英语quiz 3答案.doc
- 大学英语Unit 2 Culture book 4.doc
- 大学生创业策划书计划书范文模版论文.doc
- 大学英语unit3网络测试.doc
- 大学英语V B6-Vocabulary-4.doc
- 大学英语——南开大学现代远程教育学院考试卷答案.doc
- 大学英语Ⅰ=大学英语精读Ⅰ-刘书祥.doc
- 大学英语II词汇结构复习资料(一).doc
- 大学英语《三》网上作业.doc
- 大学英语三1-6单元课文的新四级题型练习汇总.doc
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)