- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息分析方法
2003中国竞争情报应用战略高级培训研讨会 昆明 信息分析方法 回归分析方法 回归分析方法是对变量之间统计关系进行分析的一种数理统计方法。 作用: 便于观察变量间的关系,了解变量所反映的一些实际问题。 用于简单的预测,可以利用回归分析建立进行预测的回归模型:但要注意在统计检验的基础上保证预测的可靠性 方法: 对数据进行数学表达-回归方程 确定各参数 统计检验 主要的回归方程类型 线性回归: 一元线性回归: Y = a + bX 多元线性回归: Y=c0+c1X1+c2X2+...+cmXm 非线性回归 多项式:Y = b0 + b1X + b2X2 + ... + bkXk 幂函数 :Y = aXb 指数函数:Y = abx 最常用的回归方程建立方法——最小二乘法:思路 设拟合函数为 Y=f(X1,X2,...,Xm), Xi(i=1,2,...,m,指自变量) 对于各观测点k=1,2,...,n,有估计值: Yk=f(Xik) 观测值: Yk (k=1,2,...,n) 各观测值与实际函数值之间存在误差(Y‘k-Yk), 使观测值与估计值之差的平方和——目标函数为极小 min ∑(Yk-Yk)2 由此可计算出中各参数。 对一元线性回归函数,有: 回归检验 可能存在的问题: 数据量太小,拟合度、相关系数很高,但不具备统计上的显著相关性。 原始数据的点过分集中在一个小区域,可能建立起不同形式的回归方程来对应同一组数据,它们与原始数据的拟合程度都比较接近,从而产生了不确定的情况。 所以,仅根据相关分析中的拟合程度或简单相关系数的绝对值大小来判断是不充分的。可能还需要对回归方程进行更严格的统计检验。 Excel软件的数据分析功能 ——因子分析法 因子分析简介 因子:用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间是不相关的,代表各类信息的综合指标称为因子。 因子分析:用少数几个公共因子来描述许多指标或因素之间的联系,以较少的几个因子反映原始资料的大部分信息的统计学方法。 特点: 因子变量的数量远少于原始指标变量的数量,方便分析研究; 因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息; 因子变量之间不存在相关关系,对变量的分析比较方便; 因子变量具有命名解释性,即该变量是对某些原始变量信息的综合反映。 数学模型 几个概念 因子载荷aij :因子之间完全不相关时,为第i个原有变量和第j个因子变量的相关系数,即xi在第j个公共因子变量上的相对重要性。 aij 绝对值越大,则公共因子Fj和原始变量xi关系越强。 变量共同度(公因子方差、公共方差):反映全部公共因子变量对原有变量xi的总方差解释说明比例。 公共因子Fj的方差贡献:反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。 因子分析的基本步骤 确定待分析的原有若干变量是否适合于因子分析:相关分析,计算变量间的相关系数矩阵; 构造因子变量:主成分分析法、主轴因子法、极大似然法、最小二乘法等; 利用旋转使得因子变量更具有可解释性; 计算因子变量的得分:每一样本数据在不同因子上的具体数值。 因子个数的确定 特征值准则:取特征值大于等于1的主成分作为初始因子。 根据因子的累计方差贡献率来确定。 ——聚类分析方法 聚类分析:思考 “物以类聚,人以群分”,现实世界中存在大量的分类问题: 学生成绩分等级; 国家经济发展状况的分类(人均国民收入、人均工农业产值、人均消费水平等统计指标); 人体健康水平的分类; 学科门类; …… 聚类分析 (Clauster Analysis) 数值分类法的一种,在社会应用中称类型学。 Robert Tryon于1939年提出的一种心理学研究方法。 目的:用数量关系对事物进行分类。 对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。 聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。 一般分为逐步聚类、系统聚类和其它方法。 1.系统聚类法 在开始时不选重心,而是令各样本自成一类; 计算各样本间的距离或相似度,使距离最近的,或相似度最大的两个样本并成一类; 计算合并后的各类间的距离或相似度,使距离最小的或相似度最大的两类并成一类。 重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类,或直到满意的分类为止。 判据:距离最小或相似度最大。 样本之间的距离-明氏距离 Q为样本所在空间的维度。 当各变量单位不同或测量范围相差很大时,要对变量进行标准化
文档评论(0)