- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
参看多元数据分析的原理说明文档-信号处理
多 元 数 据 分 析
用p个数值来描述一个事物,用p维向量来表示,相当于p维空间的一个点。如何对n个这样的样本点进行分析,是多元数据分析问题,大数据时代,这类问题在现实中大量存在。首先是降维问题,通过降低数据维数,可以达到数据压缩的目的,同时也便于数据的直观表达,例如降到低于或等于三维,就可以用图形来表示。第二是聚类问题,对所观测一堆样本,在事先不知道它们分成多少类,且哪个样本属于哪类的情况下,如何按照它们之间的相似程度进行自动聚结分类。第三是发掘变量之间的相互关系,分析一个或者几个变量的变化是否依赖另一些变量的变化,建立变量间的定量关系,并用于预测或者控制。最后是多元数据集合的视觉化表达问题,如果多元数据能够用直观的易于理解的图形表达,那么可以充分利用人脑优于电脑的定性分析能力。本文为多元数据分析软件系统的理论基础做简单的描述,因为该软件没有有监督学习判别分析内容,所以这里亦不涉及。
1 多元线性回归
用线性方程来描述和分析一个因变量与几个自变量的数量关系,就称为多元线性回归(multiple linear regression),其一般表达式为:
y=b0+b1x1+b2x2+…+bpxp+e
式中y是因变量,x1,x2,…,xp是自变量,p为自变量个数,e是误差,b0是回归方程的常数项(或称截距),b1,b2,…,bp为偏回归系数(partial regression coefficient)。多元线性回归就是要估计出参数b0,b1,b2,…,bp ,并且计算估计误差以及检验回归方程的适合性。
多元线性回归应用于(1)确定自变量和因变量之间的数量关系;(2)进行因素分析,应用多元回归分析某些因素的相对重要性;(3)应用多元回归方程进行预测预报和统计控制等。
2 主成分分析
所谓主成分分析(principal component analysis)是根据原始变量间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原数据信息、简化数据结果、压缩数据规模的一种统计方法。
从数学的角度看主成分分析,实际上就是对p个原始变量xj(j=1,2,…,p)进行一次线性变换,产生m个(m≤p)新的综合变量(z1,z2,…,zm)的过程,使新变量zi(i=1,2,…,m)与原始变量xj(j=1,2,…,p)有如下关系
其中,zi是第i个主成分(i=1,2,…,m);xj为第j个变量;wij为第j个变量xj在第i个主成分zi上的权重系数,又称载荷。
第i个主成分zi与第j个主成分zj(i≠j)不相关,且它们的方差满足var(z1) ≥ var(z2) ≥…≥var(zm)。权系数满足
主成分的计算,包括以下步骤(1)先对数据样本进行规格化处理,让每个自变量样本的均值为0,标准差为1;(2)求规格化处理后数据xj间的pxp维相关矩阵R;(3)求相关矩阵R的特征值(eigenvalue)和特征向量(eigenvector);(4)按照特征值由大到小排列,调整特征向量的位置,构成特征向量矩阵L
Li=[li1,li2,…,lip]是特征向量。
(5)求各主成分的权重系数,有L矩阵元素(lij)乘以相应特征值(vi)的平方根便得主成分系数,即
wij=lij(vi)1/2
主成分的主要性质有:(1)各主成分的均值为0,方差等于所对应的特征值,各主成分之间的相关系数为0;(2)当取所有p个主成分(m=p)时,各主成分的方差之和等于原始变量的个数,即:v1+v2+…+vp=p。(3)主成分zi与原始变量xj的相关系数称为因子载荷(factor loading),wij=(vi)1/2lij。
主成分分析可以应用于:(1)数据压缩;(2)噪音消除;(3)少而强异常数据点检测。
3 K-Mean聚类分析
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
聚类技术正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进,而不同的方法适合于不同类型的数据,因此对各种聚类方法、聚类效果的比较成为值得研究的课题。
目前,有大量的聚类算法。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数
您可能关注的文档
- 单位公派出国留学人员审查表-广州市人力资源和社会保障局.doc
- 南京医科大学承租房屋顶更换工程招标文件.doc.doc
- 协助【建立消费者对畜水产品食品安全信心】.ppt
- 卫生部直属单位临床学科重点项目.doc
- 博奥生物2015校园招聘简章.doc
- 博士生毕业答辩手续201409.ppt-哈尔滨工程大学.ppt
- 危险货物托运与检测.ppt
- 原子分子物理.doc
- 压电晶体DNA传感器原理.ppt
- 县级药品检验机构承担检验项目.doc
- 2024年证券分析与咨询服务项目投资申请报告代可行性研究报告.docx
- 2024年铬酸酐项目资金申请报告代可行性研究报告.docx
- 2024年清洁胶项目资金申请报告代可行性研究报告.docx
- 2024年肉松饼项目投资申请报告代可行性研究报告.docx
- 2024年陆上泵项目资金需求报告代可行性研究报告.docx
- 2024年未硫化复合橡胶及其制品项目资金需求报告代可行性研究报告.docx
- 2024年精密温控节能设备项目资金筹措计划书代可行性研究报告.docx
- 2024年汽车覆盖件模具项目资金筹措计划书代可行性研究报告.docx
- 宋词行书钢笔字帖.pdf
- 我的暑假生活作文三年级300字10篇.pdf
最近下载
- 刍议核心素养理念下小学道德与法治情境教学研究-来源:中国校外教育(第2020022期)-中国儿童中心.pdf VIP
- 屋顶分布式光伏发电项目可行性研究报告2.doc
- QC诊断师培训分享试题.docx
- 结题鉴定表.doc
- 北师大版七上《去括号》说课稿2.pdf
- 对被执行人的拘留申请书.docx VIP
- 黑龙江省齐齐哈尔市铁峰区2023-2024学年九年级上学期期中考试英语试题.pdf VIP
- 肾脏疾病生活质量简表(KidneyDiseaseQualityofLifeshortForm1.3,KDQOL-SFTM1.3).pdf
- 《税法》说课课件.pptx VIP
- ASTM C231_C231M-24 Standard Test Method for Air Content of Freshly Mixed Concrete by the Pressure Method 用压力法测定新拌混凝土中空气含量的标准试验方法.pdf
文档评论(0)