- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
?
面向Lustre集群存储的应用日志分析及系统自动优化框架*
?
?
程 稳,李 焱,曾令仿,王 芳,唐士程,杨力平,冯 丹,曾文君
(1.华中科技大学武汉光电国家研究中心,信息存储系统教育部重点实验室暨数据存储系统与技术教育部工程研究中心,湖北 武汉 430074;2.深圳国家基因库,广东 深圳 518120;3.之江实验室,浙江 杭州 311121)
1 引言
大规模集群存储系统中,运行着大量应用任务,各个应用都有其自身的特性,如人工智能、空间/高能物理、基因工程和光子科学等应用都具有不同的I/O模式,它们的负载表现多样化,应用的数据采集、建模、训练、分析和输出等阶段也有其不同的I/O特征和需求,如果所有应用均等对待、不加区分地写入集群存储系统会引发各种问题[1],如资源竞争、性能下降和服务器宕机等。集群存储系统的用户、维护人员、上层应用开发人员和多层存储系统开发人员等需要了解当前应用程序需求与特性[2],获取优化建议,找出并消除效率低下的根源,自上而下优化集群存储系统,为将来系统软硬件设计或购买提供参考[3]。
应用的多样性和快速迭代更新,使得人们对当前系统中应用负载情况不甚明朗,不同系统环境中得出的观察/结论有可能不同。比如,我们在实际应用生产环境中采集了5个Lustre集群存储连续326天的应用日志信息,通过分析发现,运行在实际Lustre集群存储中的应用都是读多写少型,读写I/O在应用运行期间一直同时存在,一天内I/O读写量几乎维持在一个比较稳定的水准。我们的上述发现与文献[3-5]的部分研究结论有所区别,但从宏观角度看来,我们的发现在一定程度上进一步完善了对应用负载访问特征的探究。因此,我们认为,通过更多的探索来丰富/验证已有研究,进一步完善已有资料库,为系统开发人员和系统维护人员提供真实部署系统的特征信息与系统性能优化建议,是非常有意义的;另外,在实际系统优化过程中我们发现,系统具备自动优化能力非常必要。
本文首先介绍常规应用日志采集方案和现有I/O数据分析研究工作,并给出本文日志采集相关信息;然后对应用日志进行探究与分析;对相关问题与发现进行归纳,并给出面向相关应用负载的Lustre集群存储优化策略;最后,针对系统优化过程中的自动化需求,面向Lustre集群存储,设计并实现一个系统自动优化框架SAOF(System Automation Optimization Framework),初步实验表明,SAOF能自动执行资源预留、带宽限定等优化策略。
2 应用日志相关研究
2.1 现有应用日志采集与分析研究
在开发、部署和评估功能时,了解应用特性是帮助架构师、集成人员和维护人员识别性能、可用性、可扩展性问题根源的关键[6]。已有研究工作通过研究数据使用模式,利用高级I/O库,分析并行文件系统客户端的I/O,优化HPC环境的I/O预取[7],它们通常通过使用诸如DARSHAN[8]、LIOProf(Lustre IO Profiler)[9]这类工具对日志数据进行跟踪分析来评估应用的I/O负载。应用的负载一般具有阶段性和周期性[10],利用已有日志对应用负载进行分析处理,既可以最大程度利用已存储的日志信息,又可以不消耗宝贵的在线计算与存储资源。
对应用负载进行优化主要有2个步骤:(1)应用I/O数据的监控与采集;(2)I/O数据的分析。在应用I/O数据的监控与采集方面,已有较多优秀的应用I/O数据监控与采集软件,如应用级I/O监控[8,9]、存储系统级I/O监控[11]和全栈I/O监控工具[12]。这3类工作主要关注相关软件的开发,介绍软件的使用,并且一般都是特有领域自身的监控方案,很少涉及到I/O数据分析[3,4]。
I/O数据分析主要分为2类:(1)单个应用的I/O行为分析[13],其主要探究应用的带宽特性、I/O周期性与重复性、单个作业的I/O行为多样性等。这些研究缺乏全局视角,效益有限,现阶段大多研究倾向于挖掘更多的信息(如存储服务器的信息),来进一步优化系统性能[14]。(2)整个存储系统的I/O行为分析[15],此类研究通过探索最佳文件系统配置或确定系统级拓扑瓶颈,关注存储系统I/O行为,提供相应建议,一般不会分析存储系统上现有活动的负载,通常也没有对元数据服务器、对象存储服务等提供深入的分析,没有过多考虑与HPC系统相关的交互,只提供了整个存储系统级别的高级特征。
针对整个存储系统的I/O行为分析问题,Patel等人[3]利用系统级I/O监控工具LMT(Lustre Monitoring Tool)[16]对美国国家能源研究科学计算中心NERSC (National Energy Research Scientific Computing center)的Edison和Cori超级计算机
文档评论(0)