工信部电信研究院大数据白皮书(2014年).docx

下载文档

2
0
约5.2千字
约 6页
2017-08-23 发布于重庆
举报
版权申诉
保障服务

工信部电信研究院大数据白皮书(2014年).docx

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

工信部电信研究院大数据白皮书(2014年)

工信部电信研究院大数据白皮书（2014年）来源：PPV课大数据作者：工信部发布时间：2014-05-30 08:43:30(一)大数据对传统数据处理技术体系提出挑战大数据来源于互联网、企业系统和物联网等信息系统，经过大数据处理系统的分析挖掘，产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看，大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节，包括数据准备、数据存储与管理、计算处理、数据分析和知识展现，技术体系如图1所示。每个环节都面临不同程度的技术上的挑战。数据准备环节：在进行存储和处理之前，需要对数据进行清洗、整理，传统数据处理体系中称为ETL（Extracting，Transforming，Loading）过程。与以往数据分析相比，大数据的来源多种多样，包括企业内部数据库、互联网数据和物联网数据，不仅数量庞大、格式不一，质量也良莠不齐。这就要求数据准备环节一方面要规范格式，便于后续存储管理，另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。数据存储与管理环节：当前全球数据量正以每年超过50%的速度增长，存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据，还要适应多样化的非结构化数据管理需求，具备数据格式上的可扩展性。计算处理环节：需要根据处理的数据类型和分析目标，采用适当的算法模型，快速处理数据。海量数据处理要消耗大量的计算资源，对于传统单机或并行计算技术来说，速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构，但在一些特定场景下的实时性还需要大幅提升。数据分析环节：数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识，是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集，挖掘更侧重根据先验知识预先人工建立模型，然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析，往往缺乏先验知识，很难建立显式的数学模型，这就需要发展更加智能的数据挖掘技术。知识展现环节：在大数据服务于决策支撑场景下，以直观的方式将分析结果呈现给用户，是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中，一般是由机器根据算法直接应用分析结果而无需人工干预，这种场景下知识展现环节则不是必需的。总的来看，大数据对数据准备环节和知识展现环节来说只是量的变化，并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大，需要对技术架构和算法进行重构，是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。(二)大数据存储、计算和分析技术是关键1.大数据存储管理技术数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。这要求底层硬件架构和文件系统在性价比上要大大高于传统技术，并能够弹性扩展存储容量。但以往网络附着存储系统（NAS）和存储区域网络（SAN）等体系，存储和计算的物理设备分离，它们之间要通过网络接口连接，这导致在进行数据密集型计算（DataIntensive Computing）时I/O容易成为瓶颈。同时，传统的单机文件系统（如NTFS）和网络文件系统（如NFS）要求一个文件系统的数据必须存储在一台物理机器上，且不提供数据冗余性，可扩展性、容错能力和并发读写能力难以满足大数据需求。谷歌文件系统（GFS）和Hadoop的分布式文件系统HDFS（Hadoop Distributed File System）奠定了大数据存储技术的基础。与传统系统相比，GFS/HDFS将计算和存储节点在物理上结合在一起，从而避免在数据密集计算中易形成的I/O吞吐量的制约，同时这类分布式存储系统的文件系统也采用了分布式架构，能达到较高的并发访问能力。存储架构的变化如图2所示。当前随着应用范围不断扩展，GFS和HDFS也面临瓶颈。虽然GFS和HDFS在大文件的追加（Append）写入和读取时能够获得很高的性能，但随机访问（random access）、海量小文件的频繁写入性能较低，因此其适用范围受限。业界当前和下一步的研究重点主要是在硬件上基于SSD等新型存储介质的存储体系架构，同时对现有分布式存储的文件系统进行改进，以提高随机访问、海量小文件存取等性能。大数据对存储技术提出的另一个挑战是多种数据格式的适应能力。格式多样化是大数据的主要特征之一，这就要求大数据存储管理系统能够适应对各种非结构化数据进行高效管理的需求。数据库的一致性（Consistency）、可用性（Availability）和分区容错性（Partition-Tolerance）不可能都达到最佳，在设计存储系统时，需要在C、A、P三者之间做出权衡。传统关系型数据库管理