- 1、本文档共258页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
工业大数据及其应用
05工业大数据分类与聚类
随着工业4.0和智能制造的兴起,工业大数据已成为推动制造业转型升级的重要力量。在海量数据中,如何有效地提取有价值的信息、优化生产流程、提高产品质量,成为了企业关注的焦点。工业大数据分类、聚类以及降维技术都是处理工业大数据的重要手段。它们可以帮助企业从海量的数据中提取有价值的信息,优化生产流程,提高产品质量。在未来的工业大数据应用中,这些技术将继续发挥重要作用,推动制造业的转型升级。本章将深入探讨工业大数据分类、聚类的作用及其相应的实现方法,同时介绍降维技术在处理工业大数据中的应用。
1.1分类分析基本概念分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。
分类任务的输入数据是记录的集合。每条记录也称作为实例或样例,可以用二元组(x,y)表示,其中x是属性的集合,而y是一个特殊属性,表示样例的类标号,即样例的分类属性或目标属性。分类就是通过学习得到一个目标函数f,属性集x通过目标函数映射到预先定义的类标号y。目标函数也称分类模型(ClassificationModel)。数据分类过程一般包含两个阶段,一是构建分类模型的学习阶段,二是基于模型预测目标类标号的分类阶段。分类模型一般有两大用途:一是进行描述性建模,分类模型可以用作解释性工具来区别目标数据中的不同类别;二是进行预测性建模,即使用分类模型来预测未知记录的类标号。
1.1分类分析基本概念分类技术实际上是一种根据输入数据集建立分类模型的系统方法。常用的分类技术包括支持向量机、决策树、朴素贝叶斯方法、K最近邻(KNN)算法、逻辑回归等。这些技术都使用某一种学习算法来确定分类模型,然后依据模型来拟合输入数据中类标号和属性集之间的联系。学习得到的模型不仅要能很好拟合输入数据,还要确保能够正确预测未知样本的类标号,建立分类的方法一般过程包括两个步骤,如图5-1所示,首先,利用目标数据取出一定数据作为训练集,据此进行学习算法的训练学习来建立分类模型;然后,取出部分数据作为检验集,用于模型的检验。
图5-1建立分类模型的一般方法
1.2分类分析方法主要的分类方法,包括k近邻法(KNN)、朴素贝叶斯方法、决策树、逻辑回归、支持向量机等,下面分别予以介绍。
1.2分类分析方法1.2.1k最近邻法(KNN)k最近邻法(k-NearestNeighbors,KNN)是一种基本分类与回归算法(本文只讨论分类算法)。它根据某个数据点周围的最近K个邻的类别标签情况,赋予这个数据点一个类别。具体的过程如下,给定一个数据点,计算它与数据集中其他数据点的距离;找出距离最近的K个数据点,作为该数据点的近邻数据点集合;根据这K个最近邻所归属的类别,来确定当前数据点的类别。
比如,在图5-2中,采用欧式距离,K的值确定为7,正方形表示类别一,圆形表示类别二。现在要确定灰色方块的类别,图中的虚线圆圈表示其K最近邻所在的区域。在虚线圆圈里面,除了待定数据点外,其他数据点的分类情况为:类别一有5个,类别二有2个。采用投票法进行分类,根据多数原则,灰色数据点的分类确定为类别一。
图5-2KNN算法实例
1.2分类分析方法1.2.1k最近邻法(KNN)在KNN算法中,两个数据点的距离是两个实例点相似程度的发映。可用的距离包括欧式距离、夹角余弦等。距离越小(距离越近),表示两个数据点属于同一类别的可能性越大。下面为距离公式(x为需要分类的数据点(向量),p为近邻数据点)。
当K个最近邻确定之后,当前数据点的类别确定,可以采用投票法或者加权投票法。投票法就是根据少数服从多数的原则,在近邻中,哪个类别的数据点越多,当前数据点就属于该类。而加权投票法,则根据距离的远近,对近邻的投票进行加权,距离越近权重越大,权重为距离平方的倒数,最后确定当前数据点的类别。权重的计算公式为(K个近邻的权重之和正好是1):
其中,KNN算法的原理很容易理解,也容易实现。它无须进行参数估计,也无须训练过程,有了标注数据之后,直接进行分类即可。它能够处理的情况不仅限于二分类问题,还包括具有多个类别的复杂场景,特别是在诊断设备或系统故障等应用中非常有效。
1.2分类分析方法1.2.1k最近邻法(KNN)KNN算法的主要缺点是计算量较大,对K值敏感,小样本下性能差,算法的解释性差。在KNN算法中,K值的选择非常重要。如果K值太小,则分类结果容易受到噪声数据点影响;而K值太大,则近邻中可能包含太多其他类别的数据点。上述加权投票法可以降低K能设定不适当的一些影响。根据经验法则,一般来讲,K值可以设定为训练样本数的平方根。
KNN算法在工业应用中非常广泛,如产品缺陷检测、协同过滤推荐、手写数字
您可能关注的文档
- 《数字化网络化智能技术:工业大数据及其应用》课件 第1--3章 绪论;工业大数据感知与预处理;工业大数据存储与计算平台.pptx
- 《数字化网络化智能技术:工业大数据及其应用》课件 第4、5章 工业大数据分析; 工业大数据分类与聚类.pptx
- 《数字化网络化智能技术:工业大数据及其应用》课件 第7、8章 工业大数据可视化; 工业大数据综合应用.pptx
- 新能源汽车底盘技术 课件 学习任务6-高级辅助驾驶系统(ADAS).pptx
- 市交通运输局局长2025年专题生活会对照“四个带头”含落实意识形态工作责任制方面个人对照检查发言提纲与乡镇(街道)围绕“四个带头”主题领导班子检视问题整改方案【2篇文】.docx
- 2025年市红十字会党支部书记、团市委党支部书记组织生活会“四个带头”个人对照检查发言材料【含意识形态工作责任制落实方面】2篇文.docx
- 市水利局党支部书记2025年组织生活会对照“四个带头”个人发言材料(含意识形态工作责任制落实方面)与市委领导班子围绕“四个带头”生活会查摆问题整改方案2篇文.docx
- 检察院领导班子2025年专题生活会对照“四个带头”检查材料与市民族宗教事务局党组书记、局长围绕“四个带头”生活会对照检查材料【含反面典型案例剖析】2篇文.docx
- 对照“四个带头”重点方面含反面典型案例查摆的问题解析生活会个人对照检查发言稿与市交通运输局局长“四个带头”含落实意识形态工作责任制方面个人对照检查发言提纲【2篇文】.docx
- 市水利局党支部书记2025年组织生活会对照“四个带头”个人发言材料(含意识形态工作责任制落实方面)与纪检委员“四个带头”方面个人对照检查材料【2篇文】.docx
- 区委书记、市国资委党委领导班子2025年组织生活会对照“四个带头”含反面典型案例举一反三剖析方面检查材料【两篇文】.docx
- 局党组书记、市国资委党委领导班子2025年组织生活会对照“四个带头”含反面典型案例举一反三剖析方面个人检查材料2篇文.docx
- 市交通运输局局长2025年专题生活会对照“四个带头”含落实意识形态工作责任制方面个人对照检查发言提纲与检察院领导班子“四个带头”检查材料【2篇文】.docx
- 市投资促进局党支部书记2025年组织生活会对照“四个带头”个人对照检查发言材料与党组书记“四个带头”个人对照检查材料(内蒙古地区四个对照,反面典型案例检视剖析)【2篇文】.docx
- 市教育局党委副书记、市国资委党委领导班子2025年“四个带头”个人对照检查发言材料(上年度整改+个人事项+典型事例剖析)2篇文.docx
- 2025年专题生活会“四个带头”方面对照检视材料(问题+原因+措施+意识形态)与纪检委员专题生活会“四个带头”方面个人对照检查材料【2篇文】.docx
- 检察院领导班子2025年专题生活会对照“四个带头”检查材料与县司法局专题生活会党组书记个人对照“四个带头”对照检查材料(含反面典型案例全面剖析)2篇文.docx
- 市机关事务局党支部书记、局党组书记2025年组织生活会对照“四个带头”含反面典型案例举一反三剖析方面个人发言材料、检查材料【2篇文】.docx
- 2025年领导干部专题生活会“四个带头”对照检查材料与市审计局领导班子专题生活会“四个带头”含反面典型案例剖析对照检查材料2篇文.docx
- 2025年县司法局专题民主生活会班子围绕“4个带头”对照检查材料与反面典型案例回顾与剖析对照检查发言材料2篇文.docx
文档评论(0)