机器学习课件day02sklearn朴素决策树.pptx

下载文档

13
0
约2.57千字
约 102页
2022-03-05 发布于北京
举报
版权申诉
保障服务

机器学习课件day02sklearn朴素决策树.pptx

1、本文档共102页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习与应用-第二天;第一天知识回顾;课程第二天;sklearn数据集;如果拿到的数据全部都用来训练一个模型？;数据集划分;sklearn数据集划分API;问题：自己准备数据集，耗时耗力，不一定真实;scikit-learn数据集API介绍;获取数据集返回的类型;sklearn分类数据集;数据集进行分割;sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’) subset: train或者test,all，可选，选择要加载的数据集. 训练集的“训练”，测试集的“测试”，两者的“全部”;sklearn.datasets.load_boston() 加载???返回波士顿房价数据集 ;想一下之前做的特征工程的步骤？ 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵，不能同时调用);sklearn机器学习算法的实现-估计器;估计器的工作流程;分类算法-k近邻算法;;你的“邻居”来推断出你的类别;分类算法-k近邻算法(KNN) ;计算距离公式;结合我们之前讲的约会数据例子，在计算两个样本数据的距离时特征有什么影响？需要对数据做些什么？ ;sklearn k-近邻算法API;k近邻算法实例-预测入住位置 ;数据的处理 ;实例流程;问题;k-近邻算法优缺点;k-近邻算法实现;k近邻算法作业 ;判定手机的好用与否;分类模型的评估;混淆矩阵;为什么需要这些指标？;精确率(Precision)与召回率(Recall);其他分类标准，F1-score，反映了模型的稳健型;分类模型评估API;sklearn.metrics.classification_report(y_true,?y_pred,?target_names=None) y_true：真实目标值 y_pred：估计器预测目标值 target_names：目标类别名称 return：每个类别精确率与召回率;分类算法-朴素贝叶斯算法;概率基础;问题;联合概率和条件概率;P(文档类别1|文档特征值) P(文档类别2|文档特征值) … …;朴素贝叶斯-贝叶斯公式;?;特征\统计;拉普拉斯平滑;sklearn朴素贝叶斯实现API;sklearn.naive_bayes.MultinomialNB(alpha = 1.0) 朴素贝叶斯分类 alpha：拉普拉斯平滑系数;朴素贝叶斯算法案例;朴素贝叶斯案例流程;朴素贝叶斯分类优缺点;模型的选择与调优;交叉验证：为了让被评估的模型更加准确可信;交叉验证过程;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站API;GridSearchCV;K-近邻网格有哪些信誉好的足球投注网站案例;分类算法-决策树、随机森林;决策树;认识决策树;比如：你母亲要给你介绍男朋友，是这么来对话的：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。;银行贷款数据;你如何去划分是否能得到贷款？;决策树的实际划分;信息的度量和作用;猜谁是冠军？假设有32支球队;每猜一次给一块钱，告诉我是否猜对了，那么我需要掏多少钱才能知道谁是冠军？我可以把球编上号，从1到32，然后提问：冠军在1-16号吗？依次询问，只需要五次，就可以知道结果。;信息的单位：比特;32支球队，log32=5比特 64支球队，log64=6比特;“谁是世界杯冠军”的信息量应该比5比特少。香农指出，它的准确信息量应该是： H = -(p1logp1 + p2logp2 + ... + p32log32);信息和消除不确定性是相联系的;决策树的划分依据之一-信息增益;信息增益的计算;常见决策树使用的算法;sklearn决策树API;泰坦尼克号数据在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息，但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单，由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别，存活，乘坐班，年龄，登陆，home.dest，房间，票，船和性别。乘坐班是指乘客班（1，2，3），是社会经济阶层的代表。其中age数据存在缺失。;泰坦尼克号乘客生存分类模型;决策树的结构、本地保存;决策树的优缺点以及改进;集成学习方法-随机森林;　　集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分