- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PCA的SVM算法在网络欺诈行为中的研究与应用
摘要:随着信息时代的蓬勃发展,网络订单无序的爆炸式膨胀,交易数据可能出现的信息失真使得快速交易的风险呈指数增长,导致越来越多的网络欺诈行为被推向了风口浪尖。本文通过分析网络机票订单的历史数据,采用主成分分析(Principal Component Analysis,PCA)的方法对其特征空间进行降维,运用支持向量机(Support Vector Machine,SVM)算法进行模型训练,从数据和模型层面得到分类预测模型,从而实现对网?j订单欺诈行为的风险预测和监控。
关键词:主成分分析;支持向量机;特征空间;风险控制
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)35-0046-02
The Research and Application of SVM Algorithm Based on PCA in Network Fraud
TANG Xin
(College of Big Data and Computer Science, Guizhou Normal University, Guizhou 550025, China)
Abstract:With the prosperous of Internet Times, the inflation it’s no arrangements to online ordering and the information distortion that the transaction data may appear makes the risk of the rapid growing exponentially, which promote more and more online fraud to the top. The assignment, according to analysis the historic data of online flight and the feature space is reduced by the method of principal component analysis, and use model training to support vector machine algorithm.And we receive the sorts based on data and model, thus to realize the prediction and monitoring of the online fraud.
Key words:PCA;SVM;feature space;risk management
1 前言
在大数据时代,随着互联网、物联网、云计算等技术如火如荼的运用于世界的各个领域,渗透到医疗、科技、教育、经济等社会的各个层面,信息技术将“大数据”推向了一个新的高度,由于网络订单的日益流行,其行为方式在强大的高频交易和程序化交易中凸显出强烈的反差。网络欺诈行为频频发生,使得数据的真实性和有效性屡见报端。因此,本文通过分析网络机票历史订单的交易记录,对海量的交易数据进行人工分类、数据预处理、主成分分析降维后,利用支持向量机算法建立诈骗行为的分类预测模型,对未知的订单数据进行预测,从而实现网络欺诈行为的监控服务。
2 大数据风控的现状
全球知名咨询公司麦肯锡提出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]
如今,在互联网技术和信息技术的推动下,海量数据已然摆在面前,是机遇必然伴随着挑战,[3]大数据风险控制的浪潮已然深深撼动了整个世界,成为发达国家互联网领域的标准配置。由于交易要求更快速的交易通道和更高效的策略模型,从而需要搭建风控平台,将风控与大数据相结合,通过分析海量的网络交易及行为数据,运用大量的指标构建能够对大量风险因子的相关性进行描述、估测和模拟的统计模型,力图探索灵活、准确、高效描述各高维风险因子之间的相依性,对其进行预测评估,进而实时风险预测和交易监控。
3实验过程
3.1数据获取
本实验的实验环境来源于R 3.2.3,实验语言为R语言,实验数据来源于某公司机票订购网站的真实交易信息,由于网站上线的产品变化,欺诈行为的特征随之变化,早期的数据可能成为噪声点。因此,本文只选择近两年的交易数据进行实验。
3.2人工选择
由于非外卡交易数据量非常庞大,这可能会带来预处理和模型训练过程的内存压力,因此需要消除相应
文档评论(0)