《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第4--6章 数据预测建模:贝叶斯分类器---数据预测建模:决策树.pptx

《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第4--6章 数据预测建模:贝叶斯分类器---数据预测建模:决策树.pptx

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章数据预测建模:贝叶斯分类器贝叶斯概率和贝叶斯法则朴素贝叶斯分类器贝叶斯分类器的分类边界贝叶斯分类器在文本分析中的应用

贝叶斯概率和贝叶斯法则

第4章数据预测建模:贝叶斯分类器??先验概率数据似然后验概率?

????如何直观解决这个问题?大部分顾客购买吗?购买顾客中的特征是怎样的??第4章数据预测建模:贝叶斯分类器

贝叶斯分类器例如:对性别等于1、年龄段为A的顾客是否购买进行预测?假定对于给定的购买行为,性别和年龄段条件独立:朴素贝叶斯分类器??第4章数据预测建模:贝叶斯分类器

贝叶斯和朴素贝叶斯分类器

?第4章数据预测建模:贝叶斯分类器

Python模拟:认识贝叶斯分类器的分类边界chapter4-2.ipynb贝叶斯正确预测的点:实心圆;错误的点:+颜色表示不同类别第4章数据预测建模:贝叶斯分类器

贝叶斯分类器的应用:空气质量等级的贝叶斯分类chapter4-3.ipynb第4章数据预测建模:贝叶斯分类器

贝叶斯分类器的应用:法律裁判文书中的案情要素分类以“中国裁判文书网”公开的有关婚姻家庭领域的2665条裁判文书为例,基于文书句子文本和每个句子对应的要素标签(多分类),探索朴素贝叶斯分类器在文本分类中的应用Python文本数据的预处理:文本分词和量化计算分词:将句子分割成若干个词,该过程称为分词结巴(jieba)是使用较为普遍的Python中文分词组件之一朴素贝叶斯分类器在文本分类中的应用

chapter4-4.ipynb第4章数据预测建模:贝叶斯分类器

??第4章数据预测建模:贝叶斯分类器

词的量化TfidfVectorizer可指定停用词和最大特征词数30个特征词(词频高)30个特征词的IDFX:以适合稀疏矩阵表示的方式输出X转为二维数组后:chapter4-4.ipynb第4章数据预测建模:贝叶斯分类器

Python文本描述性分析:词云图和文本相似性chapter4-4.ipynb第4章数据预测建模:贝叶斯分类器

Python文本分析综合应用:裁判文书的要素提取文本和文本标签的组织:通常采用JSON格式组织文本和对应的文本分类标签。JSON(JavaScript?Object?Notation)?是一种典型的便于数据共享的格式文本,在Python中与字典结构相对应Python字典:由键和值构成例如:{labels:[],sentence:原告林某某诉称:我与被告经人介绍建立恋爱关系,于1995年在菏泽市民政局办理结婚登记手续。}JSON格式的文本文件:具体步骤:读入JSON格式的裁判文书数据,并以Python的字典组织数据对裁判文书进行分词处理,计算TF-IDF值确定特征词作为输入变量利用旁置法按7:3的比例划分训练集和测试集基于训练集,利用朴素贝叶斯分类器建立多要素标签的预测模型计算训练误差和测试误差,并对比预测模型对不同要素标签的预测情况第4章数据预测建模:贝叶斯分类器

Python文本分析综合应用:裁判文书的要素提取chapter4-4.ipynb第4章数据预测建模:贝叶斯分类器

第5章数据预测建模:近邻分析近邻分析:K-近邻法回归预测中的K-近邻法分类预测中的K-近邻法基于观测相似性的加权K-近邻法

近邻分析:K-近邻法

第5章数据预测建模:近邻分析?“近朱者赤,近墨者黑”

?????第5章数据预测建模:近邻分析

?近邻分析:K-近邻法

第5章数据预测建模:近邻分析

回归预测中的K-近邻法Python模拟和启示:认识K-近邻回归线Chapter5-1-1.ipynb基于K-近邻建立回归预测模型可以实现非线性回归预测1-近邻模型的复杂度最高,随参数K的增大,模型复杂度逐渐降低,训练误差逐渐增高尽管参数K较小的高复杂度模型,其训练误差小但预测方差较大且可能出现过拟合;而参数K较大的低复杂度模型,虽然其预测方差较小但训练误差较大且可能是欠拟合的第5章数据预测建模:近邻分析

回归预测中的K-近邻法Python模拟和启示:认识K-近邻回归线Chapter5-1-1.ipynb问:K的作用?如何确定K?第5章数据预测建模:近邻分析

分类预测中的K-近邻法?第5章数据预测建模:近邻分析

Python模拟和启示:参数K和分类边界随着参数K由小增大,分类边界越来越趋于规则和平滑,边界不再“紧随数据点”,模型复杂度由高到低,训练误差由小到大K-近邻法的分类预测模型复杂度更高(K较小时),更适合解决非线性分类问题Chapter5-1.ipynb第5章数据预测建模:近邻分析

K-近邻法与Logistic回归模型、朴素贝叶斯分类器的对比:K-近邻法的模型复杂度更高(K较小时),更适合解决非线性分类问题K-近邻法是一种基于局部的学习?贝叶斯正确预测的点:实心圆;错误的点:+颜色表

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档