- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
身高体重小明小王小李协方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。可以通俗的理解为:两个变量在变化过程中是否同向变化?还是反方向变化?同向或反向程度如何?你变大,同时我也变大,说明两个变量是同向变化的,这是协方差就是正的。你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。如果我是自然人,而你是太阳,那么两者没有相关关系,这时协方差是0。从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。可以看出来,协方差代表了两个变量之间的是否同时偏离均值,和偏离的方向是相同还是相反。Fatherofinformationtheory证明熵与信息内容的不确定程度有等价关系系统科学领域三大论之一C.Shannon的信息论信息熵熵(entropy)描述物质系统状态:该状态可能出现的程度。平均信息量若一个系统中存在多个事件E1,E2,…En每个事件出现的概率是p1,p2,…pn则这个系统的平均信息量是(bits)决策树
DecisionTree具体见python代码例子代码实例分析监督学习算法:k-近邻算法(k-nearestneighborclassifier,KNN)此算法非常有趣,区别于目前已经介绍过的学习算法。KNN是惰性学习算法的典型例子。说它具有惰性不是因为它看起来简单,而是因为它仅仅对训练数据集有记忆功能,而不会从训练集中通过学习得到一个判别函数。机器学习算法可以划分为参数化模型和非参数化模型。当使用参数化模型时,需要我们通过训练数据估计参数,并通过学习得到一个模式,以便在无需原始训练数据信息的情况下对新的数据点进行分类操作。典型的参数化模型包括:感知器、逻辑斯谛回归和线性支持向量机等。与之相反,非参数化模型无法通过一组固定的参数来进行表征,而参数的数量也会随着训练数据的增加而递增。比如:决策树(包括随即森林)和核SVM。KNN属于非参数化模型的一个子类,它可以被描述为基于实例的学习(instance-basedlearning)。此类模型的特点是会对训练数据进行记忆;而惰性学习(lazylearning)则是基于实例学习的一个特例,它在学习阶段的计算成本为0。KNN算法本身是很简单的,可以归纳为以下几步:1)选择近邻的数量k和距离度量方法。2)找到待分类样本的k个最近邻居。3)根据最近邻的类标进行多数投票。下图说明了新的数据点(问号所在位置)如何根据最近的5个邻居进行多数投票而被标记三角形类标:基于选定的距离度量标准,KNN算法从训练数据集中找到与待预测目标点的k个距离最近的样本(最相似)。目标点的类标基于这k个最近的邻居的类标使用多数投票确定。这种基于记忆的学习算法的优点在于:分类器可以快速地适应新的训练数据。不过其缺点也是显而易见的:计算复杂度随着样本数量的增多而增长,使用高效的数据结构(如KD树等)可以一定程度的提高计算速度。具体请参照J.H.Friedman、J.L.Bentley在R.A.Finkel发表在ACMTransactionsonMathematicalSoftware(TOMS)3(3):209–226,1977的论文“Analgorithmforfindingbestmatchesinlogari-thmicexpectedtime”。此外,我们还不能忽视训练样本,因为此模型没有训练的步骤。由此一来,如果使用了大型数据集,对于存储空间来说也是一个挑战。使用以下代码,以欧几里得距离为度量标准,使用scikit-learn实现了一个KNN模型。闵可夫斯基距离(MinkowskiDistance),闵氏距离不是一种距离,而是一组距离的定义。两个n维变量a(x11,x12,…,x1n)与?b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:其中p是一个变参数。当p=1时,就是曼哈顿距离当p=2时,就是欧氏距离?????根据变参数的不同,闵氏距离可以表示一类的距离。通常情况下,scikit-learn中实现的KNN算法对类标的判定倾向于与样本距离最近邻居的类标。如果几个邻居的距离相同,则判定为在训练数据集中位置靠前的那个样本的类标。就KNN来说,找到正确的k值是在过拟合与欠拟合之间找到平衡的关键所在。我们还必须保证所选的距离度量标准适用于数据集中的特征。相对简单的欧几里得距离度量标准常用于特征值为实数的样本,如鸢尾花数据集中的花朵,其特征值是以厘米为
您可能关注的文档
- X6,X8键盘走带控制设置说明.doc
- 机器学习4.1 决策树1.ppt
- 【期末真题分类汇编】提升卷(含答案) 译林版(三起)2024 三年级上册期末专项复习7.docx
- 无功能性甲状旁腺囊肿的临床特征.pptx
- 中小学浙教版科学八上 3.2 人体的激素调节学案1)教育教学资料整理.docx
- 中小学【核心素养目标】第十章 浮力 第3节 物体的浮沉条件及应用 教案(表格式)人教版 八年级.docx
- 【期末真题分类汇编】专题08 匹配题 15篇 外研版(三起)四年级上册期末专项复习(含答案).docx
- 自考学前儿童保育学复习资料,历年真题x.docx
- 中小学2023-2024学年内蒙古巴彦淖尔市乌拉特前旗八年级(下)期末物理试卷教育教学资料整理.docx
- 新概念一第五课课件.ppt
文档评论(0)