网站大量收购闲置独家精品文档,联系QQ:2885784924

机器学习课件day02sklearn朴素决策树.pptx

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习与应用-第二天;第一天知识回顾;课程第二天;sklearn数据集;如果拿到的数据全部都用来训练一个模型?;数据集划分;sklearn数据集划分API;问题: 自己准备数据集,耗时耗力,不一定真实;scikit-learn数据集API介绍;获取数据集返回的类型;sklearn分类数据集;数据集进行分割;sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’) subset: train或者test,all,可选,选择要加载的数据集. 训练集的“训练”,测试集的“测试”,两者的“全部”;sklearn.datasets.load_boston() 加载???返回波士顿房价数据集 ;想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用);sklearn机器学习算法的实现-估计器;估计器的工作流程;分类算法-k近邻算法;;你的“邻居”来推断出你的类别;分类算法-k近邻算法(KNN) ;计算距离公式;结合我们之前讲的约会数据例子,在计算两个样本数据的距离时特征有什么影响?需要对数据做些什么? ;sklearn k-近邻算法API;k近邻算法实例-预测入住位置 ;数据的处理 ;实例流程;问题;k-近邻算法优缺点;k-近邻算法实现;k近邻算法作业 ;判定手机的好用与否;分类模型的评估;混淆矩阵;为什么需要这些指标?;精确率(Precision)与召回率(Recall);其他分类标准,F1-score,反映了模型的稳健型;分类模型评估API;sklearn.metrics.classification_report(y_true,?y_pred,?target_names=None) y_true:真实目标值 y_pred:估计器预测目标值 target_names:目标类别名称 return:每个类别精确率与召回率;分类算法-朴素贝叶斯算法;概率基础;问题;联合概率和条件概率;P(文档类别1|文档特征值) P(文档类别2|文档特征值) … …;朴素贝叶斯-贝叶斯公式;?;特征\统计;拉普拉斯平滑;sklearn朴素贝叶斯实现API;sklearn.naive_bayes.MultinomialNB(alpha = 1.0) 朴素贝叶斯分类 alpha:拉普拉斯平滑系数;朴素贝叶斯算法案例;朴素贝叶斯案例流程;朴素贝叶斯分类优缺点;模型的选择与调优;交叉验证:为了让被评估的模型更加准确可信;交叉验证过程;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站API;GridSearchCV;K-近邻网格有哪些信誉好的足球投注网站案例;分类算法-决策树、随机森林;决策树;认识决策树;比如:你母亲要给你介绍男朋友,是这么来对话的: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。;银行贷款数据;你如何去划分是否能得到贷款?;决策树的实际划分;信息的度量和作用;猜谁是冠军?假设有32支球队;每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?我可以把球编上号,从1到32,然后提问:冠 军在1-16号吗?依次询问,只需要五次,就可以知道结果。;信息的单位:比特;32支球队,log32=5比特 64支球队,log64=6比特;“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是: H = -(p1logp1 + p2logp2 + ... + p32log32);信息和消除不确定性是相联系的;决策树的划分依据之一-信息增益;信息增益的计算;常见决策树使用的算法;sklearn决策树API;泰坦尼克号数据 在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。 我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。 其中age数据存在缺失。;泰坦尼克号乘客生存分类模型;决策树的结构、本地保存;决策树的优缺点以及改进;集成学习方法-随机森林;  集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分

文档评论(0)

183****7931 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档