基于支付系统数据的大数据分析平台设计研究.docx

基于支付系统数据的大数据分析平台设计研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于支付系统数据的大数据分析平台设计研究

?

?

张新建

摘要:人民银行支付系统作为我国社会资金流动的大动脉,累积了海量的真实交易数据,为充分挖掘这些交易数据蕴含的有价值信息,该文对基于支付系统数据的大数据分析平台进行了研究,并提出了设计模型,以期为支付系统数据分析研究提供参考。

关键词:支付系统;交易数据;大数据平台

:TP311:A:1009-3044(2019)06-0068-02

人民银行建设并运营的中国现代化支付系统是我国社会资金在包括企业和个人在内的各经济实体之间进行流动的主要通道,随着社会经济的快速发展,支付系统累积的交易数据也呈现爆炸式增长,通过对这些海量且来源于真实经济活动的数据进行挖掘、分析,必然能够得到反映经济活动规律的有价值信息。

当前基于传统技术构建的数据分析平台普遍存在分析能力不足、业务数据访问流程复杂等缺点,尤其是在对海量数据进行分析处理时,存在处理速度过慢、分析结果价值低等不可容忍缺陷,因此应用传统架构的数据分析平台不适用于支付数据的挖掘分析,而建立一个基于支付系统数据的大数据分析平台,从而让数据产生价值,就显得尤为迫切。

1支付系统数据的特点

1.1数据规模大

中国现代化支付系统(CNAPS)作为人民银行开发设计的金融基础设施,主要提供商业银行之间跨行的支付清算服务,是为商业银行之间和商业银行与中国人民银行之间的支付业务提供最终资金清算的系统,是各商业银行电子汇兑系统资金清算的枢纽系统,是连接国内外银行重要的桥梁,也是金融市场的核心支持系统。通过支付系统的交易数据量非常大,2017年,支付系统平均每月处理的业务量超过2亿笔。

1.2数据格式化程度高

通过支付系统的交易数据,格式化程度较高,每条交易数据,都包含完整的发起方、发起账号、收款方、收款账户等信息,便于数据的存储和分析。

1.3数据安全性要求高

支付系统的交易数据,均是真实的交易记录,包含交易双方的真实信息,数据安全性要求很高,需要严格必威体育官网网址,防止数据泄露。

1.4数据分析的实时性要求较低

通过大数据平台,对支付系统数据进行分析的实时性要求较低,可以进行离线分析和处理。

2支付系统大数据分析平台架构设计

根据支付系统数据的生命周期,支付系统大数据分析平台架构应当包括四个部分:数据采集层、数据存储层、数据处理层、数据应用层,除此之外,还需要包括贯穿整个数据生命周期的数据管理模块和数据安全模块。

由于支付系统大数据分析的实时性要求不高,因此,可以采用分布式系统基础架构Hadoop系统作为技术框架,Hadoop系统通过部署在多台普通的PC机上,利用网络互联和协同机制,提供高速数据传输和处理能力,同时也具有稳定的性能,适合进行支付系统数据分析。基于Hadoop系统的支付系统大数据平台的架构如图1所示。

2.1数据采集层

数据源主要包括支付系统交易数据,主要采用清算总中心统一下发的属地数据。虽然支付系统交易数据的格式化程度较高,但是也存在半格式化、非格式化的数据,因此,在进行数据采集时需要对数据源进行统一的格式化处理。同时,为了提供数据分析的能力,还需要从工商、税务等部门采集区域、行业、公司类别等辅助信息。

2.2数据存储层

Hadoop系统的底层存储建立在HDFS基础上,HDFS的全称是Hadoop分布式文件系统。HDFS具有传统分布式文件系统的很多特征,但也有自己的显著特点,HDFS被设计成一个高容错的系统,能够部署在廉价的PC机器上,提供很高吞吐量的并发数据访问,非常适合在大规模数据集上进行数据访问和数据分析。HDFS通过将数据计算任务划分为不同的文件块,并分派至不同计算机,实现了数据的物理存储和逻辑存储的有机统一,能够有效提升数据运算的效率,然后将计算结果汇总,实现对大数据平台计算能力的拓展,同时,分布式计算适用于大量数据的离线处理过程中。

支付系统大数据分析平台,利用Hadoop系统的Spark技术,通过流式数据访问,有效降低了存储资源的使用率和网络带宽的占用量,实现对海量存储的实时分析,为科学决策提供精准的数据支撑。同时利用HDFS的分块存储机制,将支付系统数据按照数据块进行分布式存储,同时通过构建元数据信息进行管理,能搞实现数据的高速并发访问,有助于提高数据挖掘和分析的效率。在数据计算分析的基础上,进行汇总分析,拓展了大数据分析平台的计算能力,提高了數据安全性和可用性。

2.3数据处理层

数据处理层是支付系统大数据分析平台的核心,基于Hadoop技术的数据处理层关注的核心是如何处理支付系统大数据平台采集的结构化数据和非结构化数据,并进行有效的整合,充分发挥数据挖掘、分析的能力。

支付系统大数据平台的数据处理,可以针对不同的应用场景进行数据梳理,具体包括:1)数据查询:通过关键字组合、时间点限制,查

文档评论(0)

186****9898 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档