GBDT和XGBoost培训-精品课件-.pptxVIP

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GBDT和XGBoost GBDT 集成学习个体学习器的选择结合策略 Boosting Gradient Boosting Gradient Boosting Gradient Boosting残差版本定义: Gradient Boosting为什么使用梯度不使用残差? GBDT-Gradient Boosting Decision Tree GBDT:二分类? GBDT:二分类 GBDT:二分类 GBDT:二分类 GBDT:多分类 GBDT:排序RankNet GBDT:排序LambdaRank XGBoost XGBoost:eXtreme Gradient Boosting GBDT算法的一个工程实现算法优化-使用泰勒二阶展开近似,支持自定义损失函数-加入规范化正则项-Shrinkage学习率-列抽样-建树方法-稀疏感知分裂发现系统优化-并行学习-缓存感知访问-用于核外计算的块 XGBoost:泰勒二阶展开? XGBoost:正则项 XGBoost:正则项??? XGBoost:Shrinkage和列抽样? XGBoost:树的构造? XGBoost:树的构造? XGBoost:树的构造?但是,树结构太多了→贪心算法 XGBoost:树的构造? XGBoost:树的构造寻找分裂点——精确贪心算法 寻找分裂点——近似有哪些信誉好的足球投注网站算法XGBoost:树的构造 XGBoost:树的构造——加权直方图可并行的近似直方图算法:用于高效地生成候选的分割点。 稀疏数据-缺失-频繁的零项-特征工程例如one-hot编码XGBoost:稀疏感知分裂发现 XGBoost:系统优化并行学习– 特征力度上的并行– 将数据在训练之前存储在内存单元中,我们称之为块(block),并排序 XGBoost:系统优化缓存感知访问非连续内存访问当梯度统计信息不适合CPU缓存并发生缓存未命中时,这会减慢拆分查找速度。精确的贪心算法:缓存感知预取算法近似算法:正确的块大小 XGBoost:系统优化用于核外计算的块为了实现核外计算,将数据分成多个块并将每个块存储在磁盘上。在计算过程中,使用独立的线程将块预取到主内存缓冲区是很重要的,因此计算可以与磁盘读取同时发生。增加磁盘IO的吞吐量 Block Compression Block Sharding XGBoost代码实现 XGBoost支持的目标函数Objective: [default=reg:squarederror] 可选的目标函数: – “reg:squarederror” –线性回归– “reg:logistic” –逻辑回归– “binary:logistic” –二分类的逻辑回归问题,输出为概率。 – “binary:logitraw” –二分类的逻辑回归问题,输出的结果为wTx。 – “multi:softmax” –让XGBoost采用softmax目标函数处理多分类问题 – “multi:softprob” –和softmax一样,但是输出的是ndata* nclass的向量,可以将该向量 reshape成ndata行nclass列的矩阵。每行数据表示样本所属于每个类别的概率。 – “rank:pairwise” –Use LambdaMART to perform pairwise ranking where the pairwise loss is minimized XGBoost自定义目标函数XGBoost在调用obj函数时会传入两个参数:preds和dtrain – preds为当前模型完成训练时,所有训练数据的预测值 – dtrain为训练集,可以通过dtrain.get_label()获取训练样本的label – 同时XGBoost规定目标函数需返回当前preds基于训练label的一阶和二阶梯度 XGBoost支持的评估函数eval_metric [default according to objective]:– rmse: root mean square error – mae: mean absolute error– logloss: negative log-likelihood – “error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases).– error@t: a different than 0.5 binary classification threshold value could be specified by providing a numerical value through ‘t’.– merror: Multiclass clas

您可能关注的文档

文档评论(0)

文档小铺子 + 关注
实名认证
文档贡献者

文档小铺子

1亿VIP精品文档

相关文档