GBDT和XGBoost培训-精品课件-.pptxVIP

下载本文档

1
0
约4.53千字
约 47页
2023-08-31 发布于湖南
举报
版权申诉

GBDT和XGBoost培训-精品课件-.pptx

1、本文档共47页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GBDT和XGBoost GBDT 集成学习个体学习器的选择结合策略 Boosting Gradient Boosting Gradient Boosting Gradient Boosting残差版本定义： Gradient Boosting为什么使用梯度不使用残差？ GBDT-Gradient Boosting Decision Tree GBDT：二分类? GBDT：二分类 GBDT：二分类 GBDT：二分类 GBDT：多分类 GBDT：排序RankNet GBDT：排序LambdaRank XGBoost XGBoost：eXtreme Gradient Boosting GBDT算法的一个工程实现算法优化-使用泰勒二阶展开近似，支持自定义损失函数-加入规范化正则项-Shrinkage学习率-列抽样-建树方法-稀疏感知分裂发现系统优化-并行学习-缓存感知访问-用于核外计算的块 XGBoost：泰勒二阶展开? XGBoost：正则项 XGBoost：正则项??? XGBoost：Shrinkage和列抽样? XGBoost：树的构造? XGBoost：树的构造? XGBoost：树的构造?但是，树结构太多了→贪心算法 XGBoost：树的构造? XGBoost：树的构造寻找分裂点——精确贪心算法寻找分裂点——近似有哪些信誉好的足球投注网站算法XGBoost：树的构造 XGBoost：树的构造——加权直方图可并行的近似直方图算法：用于高效地生成候选的分割点。稀疏数据-缺失-频繁的零项-特征工程例如one-hot编码XGBoost：稀疏感知分裂发现 XGBoost：系统优化并行学习– 特征力度上的并行– 将数据在训练之前存储在内存单元中，我们称之为块（block），并排序 XGBoost：系统优化缓存感知访问非连续内存访问当梯度统计信息不适合CPU缓存并发生缓存未命中时，这会减慢拆分查找速度。精确的贪心算法：缓存感知预取算法近似算法：正确的块大小 XGBoost：系统优化用于核外计算的块为了实现核外计算，将数据分成多个块并将每个块存储在磁盘上。在计算过程中，使用独立的线程将块预取到主内存缓冲区是很重要的，因此计算可以与磁盘读取同时发生。增加磁盘IO的吞吐量 Block Compression Block Sharding XGBoost代码实现 XGBoost支持的目标函数Objective： [default=reg:squarederror] 可选的目标函数： – “reg:squarederror” –线性回归– “reg:logistic” –逻辑回归– “binary:logistic” –二分类的逻辑回归问题，输出为概率。 – “binary:logitraw” –二分类的逻辑回归问题，输出的结果为wTx。 – “multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题 – “multi:softprob” –和softmax一样，但是输出的是ndata* nclass的向量，可以将该向量 reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率。 – “rank:pairwise” –Use LambdaMART to perform pairwise ranking where the pairwise loss is minimized XGBoost自定义目标函数XGBoost在调用obj函数时会传入两个参数：preds和dtrain – preds为当前模型完成训练时，所有训练数据的预测值 – dtrain为训练集，可以通过dtrain.get_label()获取训练样本的label – 同时XGBoost规定目标函数需返回当前preds基于训练label的一阶和二阶梯度 XGBoost支持的评估函数eval_metric [default according to objective]：– rmse: root mean square error – mae: mean absolute error– logloss: negative log-likelihood – “error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases).– error@t: a different than 0.5 binary classification threshold value could be specified by providing a numerical value through ‘t’.– merror: Multiclass clas