- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
梯度提升决策树是一种以决策树为弱学习器的集成学习方法,可以用于分类、
回归和排序任务,得益于其易于训练、可解释性高等优点,梯度提升决策树被广泛
应用于垃圾邮件检测、广告投放、销售预测、医疗数据分析等各种数据分析任务。
然后,在面对大规模数据集时,梯度提升决策树的训练和预测过程在时间和空间上
的计算代价极高,模型的性能优化仍然存在多个方面的挑战。因此,本研究主要聚
焦梯度提升决策树方法在训练时间、内存消耗以及增量式学习方面的性能优化研究。
主要研究工作概述如下:
(1) 针对梯度提升决策树方法在面向大规模数据训练时存在内存消耗大和训练
时间长等问题,开展了基于多GPU 的梯度提升决策树性能优化研究,对梯度计算、
分裂点增益值计算、最佳分裂点寻找、决策树更新、模型预测等训练过程在GPU上
进行了优化,并基于此实现了基于多GPU 的梯度提升决策树优化系统。
(2) 针对梯度提升决策树方法容易产生不规则内存访问和不支持增量式学习的
不足,提出一种可增量式学习的梯度提升决策树模型框架,允许用户预先设计和选
择合适的树形结构,将领域知识集成到模型中,使其支持并行化训练和支持可增量
式学习。
(3) 在公开数据集上设计和开展了多个实验对所提出的模型进行性能分析,验
证所提出模型的效果。针对多GPU梯度提升决策树优化模型,通过CUDA-C实现梯
度提升决策树优化系统,并在8个真实数据集上进行了实验,实验结果表明,相比
XGBoost 、LightGBM和CatBoost基线模型,所研究的基于多GPU梯度提升决策树系
统,在训练速度方面比XGBoost 的GPU版本快1~10倍,比LightGBM 的GPU版本快
1.9~ 10倍,比CatBoost 的GPU版本快1.5倍。针对所提出的可增量式梯度提升决策树
模型,在7个开放数据集上开展的各种的对比实验结果表明,所提出的可增量式梯度
提升决策树模型的预测误差与XGBoost相当,训练耗时则小于XGBoost ,验证了本文
模型的可行性。
(4) 将所提出的可增量式学习梯度提升决策树模型应用于方面级情感分析任务
中,以此作为案例分析,用以证明模型对数据分析任务的可用性,并针对方面级情
感分析任务,提出一个可扩充模型容量的两步框架,在SemEval 2014 的两个数据集
上的实验结果表明所提出的模型在分类性能上均优于基于手工特征加SVM的方法。
此外,相比基于神经网络的方法,所提出的模型在电脑笔记本数据集上取得了新的
State-of-the-art效果,在餐馆数据集上则取得了与现有最优模型结果相当的性能。
I
Abstract
Gradient boosting decision tree is an ensemble learning method with decision tree as
a weak learner, which can be used for classification, regression and ranking prediction.
Thanks to its advantages of easy training and high interpretability, the gradient boosting
decision tree is widely used in various data analysis tasks such as spam detection,
advertising, sales forecasting, and medical data analysis. However, in the face of large-
scale data sets, the training and inference process of the gradient lifting decision tree is
extremely expensive in time and space, and there are still many challenges in optimizing
the performance of the model. Therefore, this thesis mainly fo
文档评论(0)