- 1、本文档共70页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
训练集类别:Y1:‘通过’;Y2:‘未通过’数据样本:X=(年龄=中年,教育层次=本科,是否有房=有房,收入=27976)朴素贝叶斯分类:一个例子朴素贝叶斯分类器:评论优势易于实现在大多数情况下能都获得较好的分类准确率劣势类条件独立性假设实际上,变量之间存在依赖关系,例如,医院:患者;档案:年龄、家族史;症状:发热、咳嗽等;疾病:肺癌、癌症、糖尿病等这些之间的依赖关系不能用朴素贝叶斯分类器建模如何处理属性之间的依赖关系呢?贝叶斯信念网络贝叶斯信念网络贝叶斯信念网络允许在变量子集之间定义类条件独立性一种提供因果关系的图模型表示变量之间的依赖关系确定联合概率分布YZPX结点:随机变量边:依赖关系X,Y是Z的双亲,且Y是P的双亲Z和P之间没有依赖关系无环Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优*SVM—支持向量机描述:支持向量机(SVM)是一种卓越的二分类监督学习模型,其主要目标是在特征空间中寻找一个最优超平面,以此超平面最大化不同类别数据之间的间隔,从而实现优越的分类效果和泛化能力一种新的针对线性和非线性数据的分类方法*数据线性可分的情况数据集D表示(X1,y1),…,(X|D|,y|D|),其中Xi对应类标签yi有无限条线(超平面)将这两个类分开,但想找到最好的一个(最大限度地减少看不见数据的分类误差的一个)*线性支持向量机二维空间中的线性可分数据:几何间隔一个样本点到决策边界的距离支持向量几何间隔最大时的两个异类样本间隔这些支持向量到超平面的距离之和*线性支持向量机支持向量小间隔大间隔*线性支持向量机求解分离超平面H分离超平面“侧面”的超平面联立两个不等式,得到:接下来需要使用拉格朗日乘子进行候选求解*非线性支持向量机动机:在实际应用中,经常遇到的数据集特征关系复杂,远超过简单线性关系所能描述的范围,可以将线性SVM扩展为非线性SVM实现步骤:1.通过非线性映射原始数据转换到一个更高维的特征空间2.在这个新的空间中数据变成线性可分,使用线性支持向量机进行分类*一个例子*核技巧及常见核函数Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优神经网络人工神经网络的设计灵感源自于对生物神经系统的深入模拟当神经元接受到外界刺激时,会沿着轴突传导电信号,实现从一个神经元到另一个神经元的信号转移。神经元的细胞体通过树突与其他神经元的轴突相连,而这些连接点被称为神经突触。1959年,FrankRosenblatt首次提出感知器,感知器学习规则通过逐步改变权重以学习产生目标输出,为具有固定输入的单个神经元训练目标输出值单层感知机单层感知机数学表达式:原理:通过输入和权重的标量乘积,并结合一个非线性函数映射,目标是将n维输入向量x映射到输出到1维变量y上单层感知机参数更新算法反向传播技术:迭代调整权重w和偏置项t以最小化分类错误数学表达式:终止条件:1.到达预设的迭代次数上限;2.满足误差阈值;3.在连续几轮迭代中误差变化极小或者达到一个非常低的特定值更新算法的最终目标得到一组权重w和偏置项t,使得训练集中的元组分类误差尽可能小训练过程随机初始化权重和偏置项将训练集中的元组逐个输入给感知机模型中,对于每个输入元祖计算预测结果和分类误差基于参数更新公式更新权重和偏置项多层感知机单个感知器仅能表示线性决策面,多层感知机能够表示种类繁多的非线性曲面来作为非线性决策面多层感知机引入更多种类激活函数,使得模型可以逼近任何非线性函数输入层隐藏层输出层…激活函数a)ReLU激活函数b)tanh激活函数激活函数需要具备以下几点性质:连续并可导(允许少数点上不可导)的非线性函数激活函数的导数值域应适中,避免过大或过小,以免影响训练的效率和稳定性激活函数及其导数应尽可能简单,以提高网络的计算效率文本分类算法文本分类是数据挖掘和自然语言处理领域的一项基本任务,它涉及将文本文档分类到一个或多个预定义的类别中。文本表示方法One-Hot编码:假设词汇表为{cat,dog,bird,f
您可能关注的文档
最近下载
- 2022特应性皮炎基层诊疗指南(最全版).pdf VIP
- 《休闲体育项目策划与管理》教案.docx
- Siemens西门子工业SIMOCRANE 远程起重机管理系统 (RCMS) SIMOCRANE 远程起重机管理系统 (RCMS)使用手册.pdf
- 酒店小时工服务方案.docx VIP
- DL∕T 1939-2018 -垃圾发电厂渗沥液处理技术规范.pdf
- 四年级下册数学北师大版 《密铺》课件(共15张PPT).pptx VIP
- 2024年辅警招聘《公安工作基本知识》培训考试题库 (附答案).docx VIP
- 人教版小学五年级数学下册第一次月考试卷 (试题).doc VIP
- 病毒结构生物学.ppt
- (生产制度表格)食品生产许可证记录表格.docx VIP
文档评论(0)