- 1、本文档共102页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习与应用-第二天;第一天知识回顾;课程第二天;sklearn数据集;如果拿到的数据全部都用来训练一个模型?;数据集划分;sklearn数据集划分API;问题:
自己准备数据集,耗时耗力,不一定真实;scikit-learn数据集API介绍;获取数据集返回的类型;sklearn分类数据集;数据集进行分割;sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
subset: train或者test,all,可选,选择要加载的数据集.
训练集的“训练”,测试集的“测试”,两者的“全部”;sklearn.datasets.load_boston()
加载???返回波士顿房价数据集
;想一下之前做的特征工程的步骤?
1、实例化 (实例化的是一个转换器类(Transformer))
2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用);sklearn机器学习算法的实现-估计器;估计器的工作流程;分类算法-k近邻算法;;你的“邻居”来推断出你的类别;分类算法-k近邻算法(KNN)
;计算距离公式;结合我们之前讲的约会数据例子,在计算两个样本数据的距离时特征有什么影响?需要对数据做些什么?
;sklearn k-近邻算法API;k近邻算法实例-预测入住位置
;数据的处理
;实例流程;问题;k-近邻算法优缺点;k-近邻算法实现;k近邻算法作业
;判定手机的好用与否;分类模型的评估;混淆矩阵;为什么需要这些指标?;精确率(Precision)与召回率(Recall);其他分类标准,F1-score,反映了模型的稳健型;分类模型评估API;sklearn.metrics.classification_report(y_true,?y_pred,?target_names=None)
y_true:真实目标值
y_pred:估计器预测目标值
target_names:目标类别名称
return:每个类别精确率与召回率;分类算法-朴素贝叶斯算法;概率基础;问题;联合概率和条件概率;P(文档类别1|文档特征值)
P(文档类别2|文档特征值)
…
…;朴素贝叶斯-贝叶斯公式;?;特征\统计;拉普拉斯平滑;sklearn朴素贝叶斯实现API;sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
朴素贝叶斯分类
alpha:拉普拉斯平滑系数;朴素贝叶斯算法案例;朴素贝叶斯案例流程;朴素贝叶斯分类优缺点;模型的选择与调优;交叉验证:为了让被评估的模型更加准确可信;交叉验证过程;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站;超参数有哪些信誉好的足球投注网站-网格有哪些信誉好的足球投注网站API;GridSearchCV;K-近邻网格有哪些信誉好的足球投注网站案例;分类算法-决策树、随机森林;决策树;认识决策树;比如:你母亲要给你介绍男朋友,是这么来对话的:
女儿:多大年纪了?
母亲:26。
女儿:长的帅不帅?
母亲:挺帅的。
女儿:收入高不?
母亲:不算很高,中等情况。
女儿:是公务员不?
母亲:是,在税务局上班呢。
女儿:那好,我去见见。;银行贷款数据;你如何去划分是否能得到贷款?;决策树的实际划分;信息的度量和作用;猜谁是冠军?假设有32支球队;每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?我可以把球编上号,从1到32,然后提问:冠 军在1-16号吗?依次询问,只需要五次,就可以知道结果。;信息的单位:比特;32支球队,log32=5比特
64支球队,log64=6比特;“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:
H = -(p1logp1 + p2logp2 + ... + p32log32);信息和消除不确定性是相联系的;决策树的划分依据之一-信息增益;信息增益的计算;常见决策树使用的算法;sklearn决策树API;泰坦尼克号数据
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
其中age数据存在缺失。;泰坦尼克号乘客生存分类模型;决策树的结构、本地保存;决策树的优缺点以及改进;集成学习方法-随机森林; 集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分
您可能关注的文档
最近下载
- DLT869-2021 火力发电厂焊接技术规程.pdf
- 2024年上海长宁区中考语文一模作文:“生命中的不可或缺”审题立意及范文.docx VIP
- 2024年高中数学函数思想在解题中的应用.pptx
- 老年患者的心理健康评估与干预.pptx VIP
- 七上字词复习卷 (修订版版含答案).pdf VIP
- GB50210-2018 建筑装饰装修工程质量验收标准.doc
- 中图版高中地理必修三.《人类活动对区域地理环境的影响神奇的马达加斯加》.ppt
- 中国包装塑料市场运行态势及行业发展前景预测报告.docx
- 东北抗联精神 主题班会课件.pptx
- 2020-2025年中国P2P借贷行业市场运营现状及行业发展趋势报告.docx
文档评论(0)