五大机器学习算法.docxVIP

下载本文档

36
0
约3.14千字
约 8页
2022-03-21 发布于黑龙江
举报
版权申诉

五大机器学习算法.docx

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2022年你应该知道的五大机器学习算法，解释型算法、降维算法榜上有名本文介绍了 5 大常用机器学习模型类型：集合学习算法，解释型算法，聚类算法，降维算法，相似性算法，并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点：1、应用性。涉及到应用问题时，知识的普适性显然非常重要。所以我们希望通过给出模型的一般类别，让你更好地了解这些模型应当如何应用。2、相关性。本文并不包括所有的机器学习模型，比如Na?ve Bayes（朴素贝叶斯）和SVM这种传统算法，在本文中将会被更好的算法所取代。3、可消化性。对于数学基础较薄弱的读者而言，过多地解释算法会让这篇文章的可读性变差，更何况，你可以在网上找到无数教我们实现这些模型的资源。因此，为了避免本文变得无聊，我们将会把目光放在不同类型的模型的应用上。 1集合学习算法（随机森林XGBoost, LightGBM, CatBoost）什么是集合学习算法？为了理解什么是集合学习算法，首先，你需要知道什么是集合学习。集合学习是一种同时使用多个模型，以达到比使用单一模型更好的性能的方法。从概念上讲，可以参考下面这个比喻：我们向一个班里的学生提出一个数学问题。他们有两种解答方式：合作解答和单人解答。生活经验告诉我们，如果全班同学一起合作，那么学生之间可以互相检查，协作解决问题，并最终给出一个唯一的答案。然而单人作答就没有这种检查的福利了——即使他/她的答案错了，也没有人能帮他/她检验。这里的全班协作就类似于一个集合学习算法，即由几个较小的算法同时工作，并形成最终的答案。应用集合学习算法主要应用于回归和分类问题或监督学习问题。由于其固有的性质，集合学习算法优于所有传统的机器学习算法，包括Na?ve Bayes、SVM和决策树。算法随机森林：随机森林由许多相互独立的决策树构成。XGBoost：类似于梯度提升（GradientBoost）算法，但添加了剪枝，Newton Boosting，随机化参数等功能，因而比梯度提升更强大。LightGBM：利用基于梯度的单边采样（GOSS）技术过滤数据的一种提升算法，目前实验已经证实比XGBoost更快，且有时更准确。CatBoost：一种基于梯度下降的算法。? 2解释型算法（线性回归、逻辑回归、SHAP、LIME) 什么是解释型算法？解释型算法使我们能够识别和理解结果有统计学意义的变量。因此，与其创建模型来预测响应变量的值，不如创建解释性模型来帮助我们理解模型中变量之间的关系。而从回归的角度来看，人们往往强调统计学上显著的变量，这是因为对于从一个整体中提取出的样本数据，如果想对样本做出结论，首先必须确保变量拥有足够的显著性，并由此做出有把握的假设。应用解释性模型通常用于需要作出解释的场景。比如展示「为什么」做出某个决定，或者解释两个或多个变量之间「如何」相互关联。在实践中，你的机器学习模型的可解释性与机器学习模型本身的性能一样重要。如果你不能解释一个模型是如何工作的，那么这个模型就很难取信于人，自然也就不会被人们应用。算法基于假设检验的传统解释模型：线性回归：如果 2 个或者多个变量之间存在“线性关系”，就可以通过历史数据，建立变量之间的有效“模型”，来预测未来的变量结果。例如，y = B0 + B1 * x。Logistic回归：逻辑回归主要解决二分类问题，用来表示某件事情发生的可能性。解释机器学习模型的算法： SHAP：即来自博弈论的沙普利加和解释，实际是将输出值归因到每一个特征的shapely值上，依此来衡量特征对最终输出值的影响。LIME：LIME算法是Marco Tulio Ribeiro2016年发表的论文《Why Should I Trust You? Explaining the Predictions of Any Classi?er》中介绍的局部可解释性模型算法。该算法主要用于文本类与图像类的模型中。? 3聚类算法（k-Means，分层聚类法）什么是聚类算法？聚类算法是用来进行聚类分析的一项无监督学习任务，通常需要将数据分组到聚类中。与监督学习的已知目标变量不同，聚类分析中通常没有目标变量。应用聚类算法可以用于发现数据的自然模式和趋势。聚类分析在EDA阶段非常常见，因为可以得到更多的数据信息。同样，聚类算法能帮你识别一组数据中的不同部分。一个常见的聚类细分是对用户/客户的细分。? 算法 K-means聚类：K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。层次聚类：通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。 4降维算法 (PCA, LDA) 什么是降维算法？降维算法是指减