数据网格环境中数据传输服务的研究.doc

数据网格环境中数据传输服务的研究.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据网格环境中数据传输服务的研究

数据网格环境中数据传输服务的研究 现在,许多科学应用产生的数据是空前的,可能达到TB级别,甚至PB级别,这么多的数据不能保存在一个计算机中心,需要存放在广域网上的多个站点,并且需要满足各地研究人员对数据的共享需求。例如,目前CERN的LEP实验结果数据是1Mbps,每年的数据量0.2TB~0.3 TB,而计划2005年投入使用的LHC,将是100Mbps,每年的数据量将是1PB。来自全世界80多个国家、500多所大学及研究机构的6 500多名科学家,在CERN进行各种各样的实验,它们需要共享这些数据,对其进行分析、处理。因此,一个公司、组织、研究团体,都需要具备收集、管理、分析数据的能力,为工作人员提供方便的、统一的访问各种数据的方法。近年来提出的数据网格,为我们解决上述问题提供了一个有效途径。数据网格是以命名的透明性、位置的透明性、协议的透明性、时间的透明性为目标,建立一个分布海量数据的一体化网格数据访问、存储、传输、管理与服务架构和环境。它以数据管理为中心,面向底层屏蔽网络中各种异构存储和数据资源,面向上层应用提供易于使用的统一访问接口,建立虚拟组织内部数据的统一共享和管理,为用户提供一体化的数据管理和高性能处理服务。数据网格中的海量数据分布于地理上分布的节点,并为地理上分散的网格用户所共享。因此经常需要移动和复制大量数据,提升整个数据网格系统的服务效率,方便客户对网格数据进行分析处理。数据的移动和复制需要高效、可靠、方便的传输工具,以实现数据的快速复制,从而实现数据网格的数据访问的时间透明性。因此研究能提高网格数据传输性能的技术途径,制定高速、安全、高性能的网格数据传输协议,实现集成的服务框架。我们根据数据网格的特点,对数据网格中的数据传输的需求进行了分析研究,并分析了Globus Toolkit的数据传输服务,参考其体系结构和服务原理,在课题中利用其GridFTP实现了安全、高性能的数据传输服务。 数据网格具有许多自身的特点,如数据资源是广域分布的,复制的多样性(如数据Cache,两物理存储资源的复制)、数据资源的可用性动态变化等,这些特点决定了数据传输需要满足以下要求: 高性能。数据网格要求访问的时间透明性,这就需要在数据传输时数据传输时延小,因此网格中的数据传输工具比一般的数据访问协议(如NFS,CIFS,FTP等)有较高的数据传输率。减少控制信号的通信开销和并行传输是实现高性能的主要手段。在广域的连接上,相对单一的TCP连接而言,并行数据传输能够极大地提高网络传输性能。通过并行传输的方法来缓解网络速度和带宽方面的压力,在传输源站点与目的站点之间同时并行地使用多个TCP流,能在相同的网络环境下获得更多的性能。 (2)方便好用。数据网格支持数据的主动复制,不需要用户发送请求,由系统根据复制策略和应用特点将数据主动地复制到某个地方,因此网格中间件就要控制数据在两个网站点之间的传输启动和停止,并监视和控制整个数据传输操作的过程。整个过程指令流在中间件与数据器之间传送,数据在两个数据服务器之间传送,分开指令流和数据流。另外,用户对数据的访问需求可能只是整个文件的一部分,因此传输工具要支持部分传输功能,这也可提高传输性能。 (3)安全可靠。适当的安全机制能为用户提供在不同的数据安全级别上的网格安全基础结构和身份认证的能力,使得数据传输比较安全,系统更加灵活,以适用于不同的行业应用需求。在数据网格中,数据传输的可靠性显得非常重要,需要对传输过程中的网络崩溃、服务器失效等进行故障恢复。传输服务中须引入可重启的数据传输服务,当发生错误时可以从上次正确传输的部分继续无错地传输剩余的部分,保证可靠性。在某些情况下还需要重新启动整个传输。 (4)数据锁定和空间预约。数据网格中的Cache容量是有限的,会出现Cache空间不够的问题,同样Cache管理程序会根据策略删除一些文件,因此这就需要传输工具有数据锁定和空间预约的功能,保证传输能够正常完成。在传输过程开始前传输进程先查询传输目的站点,为传输预留足够的存储空间,传输过程中需要保证相应数据不被删除。 (5)传输时间估计。数据网格在管理负载面临的许多新问题,如数据经常需要动态重新分配,系统中可调度组件的数量非常之大,会出现许多用户同时提交任务的情况,不同国家不同机构有不同的管理策略等。负载管理在分解和分发任务时,必须基于计算能力和数据的可用性。负载管理应能比较不同任务分解方法的利弊,它需要预测并综合考虑任务在不同机器的执行时延、生成数据缓存副本的开销、在二级存储与第三方存储之间迁移数据的开销。因此,数据网格中估计出数据的传输时间并返回给上层服务,便于任务调度。 GridFTP是由Global Grid Forum提出的一种在FTP协议基础上加以改进,以适应网络环境下大数据量传输新的高效、

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档