- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据预测处理模式探究
大数据预测处理模式探究 摘 要:大数据的时代,数据的产生和收集是基础,数据挖掘是关键,在日新月异的应用背后,产生的是数据爆炸式增长和来自大数据分析的挑战,如何有效的利用这些数据也是一个难题。所以研究大数据各种预测的模型的研究就尤为重要,本文结合大数据时代的数据特点,研究大数据的预测处理模式,提出一种算法融合的模型框架,并通过实验数据集验证模式
关键词:大数据;数据挖掘;特征工程;模型融合;Hadoop
1 研究背景及意义
大数据时代当前面临的挑战是根据大数据进行预测[1]研究,利用已知数据进行预测的模式产出,本文对大数据预测处理模式进行研究,同时创新性的提出一种融合算法模型框架,最后用?稻菁?[3]来验证模型的准确性
2 预测处理模式研究
基本处理模式
本文研究的大数据[4]预测处理模式主要分为几个过程,如下:
1.问题与业务理解
问题与业务的理解是对数据挖掘的需求进行确认,对预测与挖掘目标有一个明确的定义
2.数据收集与预处理
原始的数据要倾国清洗或者预处理的方式,才能使最终的结果准确或者可用
3.数据挖掘
a)特征工程
b)模型训练
c)模型评估
4.结果解释和评估
特征工程
特征工程[5]是将原始数据转化为特征,在进行特征工程的时候,影响其预测结果有三大因素:模型的选取是否合适,可以用的数据是否好用,提取的特征是否实用
数据预处理
对数据进行挖掘之前,必须首先准备好挖掘的数据,需要对数据进行预处理,提高分类或预测的准确性、效率和可扩展性
1.数据清理。数据清理是指在消除或者减少数据中噪声和处理缺失值数据预处理
2.相关性分析。犹豫数据集中的许多属性与挖掘任务本身可能是无关的
3.数据转换。利用概念分成,可以将数据泛化到更高层次的概念
特征选择
特征选择是根据有意义的特征输入数据挖掘的算法和模型进行训练。特征选择是特征处理的核心部分。包括以下几种方法:
1.过滤特征[6]:该思路是自变量和目标变量之间的关联
2.封装特征:该思路是通过目标函数来看是否加入一个变量
3.嵌入特征:该思路是学习器来自动选择特征
算法框架
本问研究内容创新性采用算法模型的融合方式,即多模融合的学习算法框架 ,建立组合预测方法,得到优选的预测处理模式,克服单个预测算法的缺点,提升了算法预测的准确性
GBDT
GBDT算法是Boosting算法的一种具体实现形式,它是一种非线性的模型,每次迭代都是在减少残差的梯度方向新建一颗决策树,迭代多少次就会生成多少决策树
LR
LR是广义的线性模型。LR模型可以很好的并行化,其是一种线性模型,其可以处理上亿条的训练样本。但是这种线性模型限制它的的学习能力,不能处理大量的特征
GBDT与LR的融合
GBDT的决策树的通道可以直接作为LR输入特征使用。所以本文将两种算法结合,提出一种GBDT与LR融合的算法模型。这种模型相比如人工寻找特征和特征组合,这种方法省时省力,效率更高。经过融合算法模型进行特征和特征组合的自动发现,LR的输入特征来自GBDT生成的特征
模型评价
模型评价是验证特征工程与算法框架的重要评测环节。一般采用均方根误差评价法
其计算公式如下
3 实验数据集分析
数据分析
通过分析某省部分公交线路的历史公交卡交易数据,分析推测乘客的出行习惯和偏好,从而建立模型,预测未来公交客流。即:根据公交线路历史刷卡数据,预测不同公交线路6点-21点各时段的客流情况
特征工程
原始数据包含特征Use_city features、Line_name features、Terminal_id features、Card_id features、Create_city features、Deal_time features、Card_type features、Weather features。特征按照具体的内容又可以分为:计数、比值、Flag、时间间隔、时间层级、规则、排序、地理特征等八种。由于篇幅有限,这里不详细介绍各特征
算法框架
算法采用GBDT和LR融合算法,基本原理见图1,GBDT作为主要分类器,表3得到的训练参数是经过模型训练得到的。其中,GBDT3是单模型中评价效果最好的模型。经过GBDT生成的特征,下一步使用LR对GBDT生成的模型进行融合,把每个GBDT 模型对测试集的预测结果合并作为LR的训练集
结果评价
模型结果评价采用RMSE评测,公式如下:
经过线下的预测集测试,7模型混合GBDT特征模型与LR融合的算法框架最终得到82%的评分值,说明整个预测模式
您可能关注的文档
最近下载
- 《2023年甘肃省职业院校技能大赛职业英语技能赛项职业英语能力测试模块试题口语决赛样题》.pdf
- 建筑工程建筑面积计算规范GBT50353-2022[13].pdf
- JB/T 9628-1999 汽轮机叶片 磁粉探伤方法.pdf
- 0i-TF PLUS车床操作说明书.pdf
- 陈传明管理学笔记1.马工程——总论.pdf
- 06J925-2 压型钢板、夹芯板屋面及墙体建筑构造(二).docx VIP
- 《高速公路基础设施数字化建设数据标准》.pdf VIP
- 计算机组装与维护 知识点整理.pdf VIP
- 《员工满意度研究国内外文献综述》3900字.docx VIP
- 勤俭节约主题班会 主题班会.ppt VIP
文档评论(0)