主页 > 案例大全 > 论文方法大全-因子分析法和主成分分析法的比较研究

论文方法大全-因子分析法和主成分分析法的比较研究

2021-06-03 14:39:12

  主成分分析法和因子分析法都是非常有价值的多元统计方法,我们将从理论思想和应用等层面来讨论主成分分析法与因子分析法。其中先讨论了主成分分析的原理以及改进方法,之后我们对主成分分析原理进行了有关数学推导和性质证明。此外,为更加合理客观地做综合评价做理论上的准备,我们研究了因子分析中因子载荷矩阵估计方法。本文从基本概念、基本的思想、计算过程等方面详细地讨论了这两种方法的不同与相同处。我们比较完它们的理论差异后,发现在应用中容易出现混淆的问题。我们证明了它们在综合评价应用中的有价值在经过和传统的加权平均法的比较后。本文将根据它们的特点,根据不同情况选择更为有效的方法。

  在应用方面,本文利用了软件spss。用主成分分析法和因子分析法对班级学生的15个课程进行分析,结果表明了这两种方法十分有效比较于传统的加权平均法。

  现如今,为了有效的利用信息,人们想要对各种事物进行客观全面的综合评价。但是拥有的信息太多,也会导致一些信息重复现象,这样会降低了结果的有效性。与此同时,国内外在综合评价方面的研究开始变多,使得多元统计分析模型的研究也开始越来越多,人们开始寻求解决信息重复问题的有效方法——对众多信息进行降维处理。

  充分地运用降维[1]思想的这两种方法就是我们将要进行研究的,用尽可能少的几个不相关的变量的信息,如何来得到多变量信息。因子分析法和主成分分析法有很多相同的地方,前者是以主成分分析法[2]为根本的发展。因为两者的相似,在统计软件计算的过程中及其容易发生混淆,导致结果很难理解,并且发生不当偏差[3]。这容易使人们对分析得出结果产生一定质疑。综上原因,我们想要把这两种方法找出异同,在两种方法中根据实际问题选择合适的方法。

  1.2发展与现状

  威沙特的《关于多元正态总体样本协方差阵的精确分布》使得我们迎来了多元统计分析的开端,后来霍特林,罗伊等人同样也进行了非常深入的研究。多元统计分析的快速蓬勃发展是这些人的努力所推动的。在我们国家,在非常多的领域[4-6],一些学者也进行了多元统计分析的深入研究,同样取得了进展。

  对于这类问题,在两种方法的综合评价方面,许多学者做了深入的研究。本文对此做了讨论。

  著名统计学家卡尔皮尔逊的引入和Harold.Hotelling的推广,使得主成分分析能很好的应用到综合评价中来。

  邱东[7]教授为主成分分析做出了深入的研究取得了不错进展,还有很多专家学者[8]也对主成分分析进行了深入的研究,如孟生旺[9]、白雪梅[11]等[10]。很多领域[14-17],例如医学、教育和环境,都出现了主成分分析的身影。

  英国心理学家查尔斯.斯皮尔曼对学生分数的研究迎来了因子分析法的开端,在此基础上,因子分析在多元统计分析中占有非常重要的地位。

  林海明[39]与一些学者研究了因子分析的本质,而王芳[38]研究了因子分析和主成分分析之间的联系区别。还有许多学者研究了因子分析的权重分析和因子旋转。因子分析已经应用于到许多领域,如卫生、电信和企业管理等。

  1.3本文结构安排

  全文共分为五章,总结如下:

  第一章介绍了论文的主要构成,研究意义以及创新的影响因素,主要内容和创新点的分析现状。

  第二章:主要成分分析的基本原理,主成分分析的数学模型和基本算法,以及机理的讨论和改进。

  第三章介绍了因子分析的基本原理,数学模型和统计重要性,并使用了几种方法来估计参数。

  第4章:从基本原理,计算程序等方面深入分析主要成分分析方法与因素分析方法之间的异同。

  第五章:在SPSS研究实例之后,描述了SPSS实施时的主成分分析方法和因子分析方法的比较。

  1.4本文研讨的主要创新点

  (1)在对无量纲数据处理的主要理论基础进行分析的基础上,研究了数据矩阵的选择和特征向量的选择。

  (2)研究了SPSS操作过程中主要成分分析的评估方法与因素分析和考虑因素之间的异同。将这两种方法的评估结果与传统的加权系数均等化方法进行了比较,从而可以确定它们的科学性和可行性。

  (3)从模型,计算程序等角度对比了主成分分析法和因子分析法。

  第二章主成分分析

  2.1基本原理

  2.1.1客观背景和统计思想

  解决问题时,往往会有很多变量,但是太多的变量会导致大量数据的重复和叠加,从而增加了算法的复杂性。主成分分析的基本原理是用较少的全局变量代替几个随机变量,并通过使变量彼此独立[17]来最大程度地减少变量携带的信息损失。人们经常误解了如何理解主成分分析。错误地认为对主要成分的分析在于分析比较指标的重要性,删除次要指标并保留重要指标。主成分是在p指标中搜索综合变量,在p指标中包含更多的信息。这个综合变量是主成分。一旦找到主要组成部分,就会根据几个标准来看能不能代表绝大多数信息。否则,将继续考虑第二和第三主要组成部分。第二主成分试图避免包含第一主成分的信息,该原理是在主成分分析中主成分彼此没关系。主成分分析方法将具有多个指标的原始数据转换为只有几个指标的问题,简化了数据的处理并保留了尽可能多的指标不丢失大量重要信息[23]。

  2.1.2数学模型

  设有n个样本,每个样本有p个变量(指标):,得到原始数据的观测矩阵如下:

  主成分就是x的k(k?p)个线性函数,(使相应的方差尽可能大(?是x的协方差矩阵),避免出现Var(yi)??,为了问题的研究有一定意义,要求。

  上面看做一个条件极值问题,存在某个条件使得以下成立:

  目标函数可以通过拉格朗日乘数法[3]求:

  其中?是拉格朗日乘因子。

  令得

  因为,那么ai?0,所以由,可知?是?的特征根,是?i对应的

  特征向量。由于任意的ai?0,有,所以?是正定的,它的特征根也是正的。

  设协方差矩阵?的特征根?1??2????p?0,

  因为

  所以

  所以第一主成分,且。

  同理可求得第p个主成分。所以可以得到如下定义和性质。

  定义2.1.1[23]设随机向量的协方差矩阵为?,?1??2????p

  是?的特征根,是标准正交特征向量,所以第i个主成分为:

  性质2.1.2[27]Y的协方差矩阵为对角阵?。证明:

  性质2.1.3[23]

  证明:

  方差的大小表明信息量,通过性质2.1.2得:

  总体总方差=

  说明特征值可以表明总体信息量。所以便可引出以下定义:

  定义2.1.4[22]第一主成分的方差贡献率是,前k个主成分的累计方差贡献率

  是。

  性质2.1.5[21]如果是通过协方差矩阵?求出主成分,

  那么主成分Yk和变量Xi之间的相关系数。

  证明:因为

  其中为第i个分量为1,其余为0的单位向量。

  所以

  2.1.3从标准化变量得到主成分

  标准化形式为:

  采用矩阵记号:,且

  则:

  其中,?是的相关系数矩阵。

  性质2.1.6第i主成分为:

  其中为标准正交特征向量。

  性质2.1.7

  第k主成分地贡献率

  前k个主成分地累计方差贡献率

  性质2.1.8

  其中,是?的特征值—特征向量对,且

  2.1.样本主成分

  上述以总体主成分为基础讨论的,在许多实际情况下,协方差矩阵?和相关系数矩阵?未知。我们有必要讨论以样本为基础的主成分。

  设S??sij?是样本协方差矩阵,特征值,标准正交特征向量

  则第i个样本主成分

  样本方差:

  样本协方差:

  样本总方差:

  在中的负荷量:

  采用标准化形式:

  则标准化后的n?p数据矩阵:

  样本均值向量:

  样本协方差矩阵:

  设为R的标准观测值,则第i个样本主成分为:

  其中是R的第i个特征值—特征向量对,且。另有

  样本方差:

  样本协方差:

  样本总方差:

  x在中的负荷量:

  第k主成分的贡献率:

  2.2机理探讨

  上节我们讨论了主成分的基本原理,数学推导和性质,为了完善,那么本节将要分析主成分的原理和改进。

  2.2.1数据无量纲化

  接下来讨论标准化、均值化、极差正规化。数据的无量纲化[4],并且说明适用情况。

  设原始数据矩阵,无量纲处理后的数据矩阵为

  表示交换前的方差与相关系数。表示交换后的方差与相关系数。则与的协方差为:

  其中

  当采用标准化时,即:

  其中

  将信息量的损失降低,则有:

  当使用标准化法,利用相关矩阵R求主成分;

  当使用均值化法,利用协方差矩阵?求主成分;

  当使用极差正规化法,利用协方差矩阵求主成分。

  2.2.2数据阵的计算

  已知数据阵,离差阵是L,协方差阵是?,相关系数阵R。存在以下关系:

  ,其中:,?ij是的方差。

  以上讨论在总体的相关系数矩阵或协方差矩阵的基础上,还可以通过离差阵[21]对主成分推导,以下我们讨论研究通过L,?,R所得的主成分和方差贡献率。相同数据到不同的矩阵中得出的主成分分析结论。结论如下。

  结论1:L和?分别做主成分分析,结论是一样的。

  设L和?的特征值分别是和。

  ui是?i相对应的?的标准正交特征向量。则

  即令因为n?1?0,那么

  是L的特征值,它等于?的第i个特征值的n?1倍。又因L和?对应的特征向量相同。

  此外,因为

  由L和?出发分别求得的第i个主成分为G i(x)和F i(x),贡献率为

  。

  可知?和R的特征值和特征向量没有关系,因此用?和R分别做主成分分析的结论不同。

  2.2.3特征向量的确定

  计算主成分时,由式

  的单位特征向量为k?u,我们对向量正负的选取[11-13]进行讨论。

  确定向量选择正负条件。假设有最优样本a和最劣样本b:

  Yi对样本和的得分值需满足:Yai?Ybi,即:

  注:条件(3)为选择正负uk的条件。采取极差正规化无量纲化时,有:

  此时条件(3)就变成:

  即成了非负条件。当正的uk不满足条件(3)时,那么也可以用负的uk来进行主成分得分[12]的计算。

  2.3本章小结

  本章从主成分分析的基本原理开始讨论,在此基础上进行了有关的数学推导和性质的证明,也证明了标准化主成分和样本主成分的一些性质。探究了主成分分析的原理和可能的改进方法。

  第三章因子分析

  3.1基本原理

  3.1.1统计思想

  利用相关系数矩阵之间内在联系,能找到几个变量描述原始变量间的相关。使用变量间相关性分组。每个组为公共因子[27-29]。

  3.1.2数学模型

  一、正交因子模型

  第一步,做合适假设:

  (1)设为可观测随机向量。均值向量E(X)?0,协方差矩阵

  Cov(X)??。令E(X)?0,当E(X)??时,可以令,即有

  (2)是不可观测的随机向量。均值向量E(F)?0,协方差矩阵

  Cov(F)?。各分量不具有相关性,且方差为1,通常满足m?p。

  是不可观测的随机向量。均值向量E(?)?0,协方差矩阵

  D?是一个对角阵,各分量不具有相关性。此外cov(F,?)?0,即?与F不相关,则以下模型称为因子分析模型[27]。

  其矩阵形式为X?AF??

  且满足:

  则即不相关且方差不同。

  其中是因子载荷矩阵,是Xi在Fi上的负荷,为公共因子,为特殊因子或误差。

  二、模型中变量的统计意义

  (1)因子载荷的统计意义

  因子载荷aij统计意义是Xi在Fi上的负荷。

  对模型

  (2)公因子Fj的方差贡献的统计意义

  因子载荷阵中各列元素平方和:

  (3)变量共同度的统计意义

  变量Xi的共同度就是因子载荷矩阵A中第i行平方和[30]。表示为:

  上式表明变量Xi方差是共同度和特殊因子方差两部分组成。我们已经假设Xi已标准化,那么有

  三、正交因子模型的协方差结构

  下列为正交因子模型的协方差结构:

  四、对正交因子模型应注意的几点

  (1)正交因子模型不受量纲的影响

  将?的量纲做变化,即对其进行变换????,其中

  关于正交因子模型的全部假设条件也同样适用于此模型:

  (2)因子载荷是不唯一的

  若?为任意正交矩阵,即则模型可表示为:

  则也满足正交因子模型,且A和的协方差矩阵?相同,

  即

  (3)?为一正交矩阵,共同度与?的选择无关

  由(1)知

  而

  因此,通过上式可知共同度与?的选择无关。

  3.2机理探讨

  3.2.1因子载荷阵和特殊方差矩阵参数估计方法

  本节以主成分法、极大似然估计和最小二乘法和EM算法这四种估计方法对因子载荷矩阵和特殊方差矩阵进行参数估计[32]。

  (1)主成分法

  不妨设的协方差阵,?的特征根为

  标准正交特征向量为,因为?是实对称矩阵,所以有

  使得成立,也就是

  当特殊因子方差等于0时,???。与?分解式对照,得因子载荷阵

  3.2.2因子旋转

  要解释公共因子含义,对?进行因子旋转。因子载荷阵?不唯一,正交矩阵?右乘?。有

  是因子分析模型,故知?在正交变换?

  下仍是因子载荷阵。?正交变换一次,对应坐标系就旋转一次,?的这种变换即为因子轴的旋转。旋转前后的Fj对?的贡献有变化,在旋转的过程中开始向0和1两极分化。

  先通过m?2来解释此旋转法的原理。

  设因子载荷阵

  此时应使正交旋转的角度?满足:

  当公共因子有m(m?2)个时,一般只能迭代求得矩阵?。将m?2用于对因子旋转,即每次取两个,全部配对旋转。

  3.2.3因子得分

  我们知道因子分析数学模型是的线性组合可通过观测变量Xi的值求公共因子Fi的得分。此时可用变量来线性表示公共因子即:

  矩阵形式为

  F?BX

  其中为因子得分函数。

  当用回归分析法估计B时,未旋转时,旋转后

  是旋转后因子载荷阵,R是X相关系数矩阵。

  3.3本章小结

  本章研究了正交因子模型,变量共同度的统计意义。讨论了模型的协方差结构。研讨了因子载荷矩阵和特殊因子方差的几种估计方法。在理论上,我们讨论了因子旋转和因子得分,为因子分析合理的用于之后例子分析做了铺垫。

  第四章因子分析法与主成分分析法的比较研究

  因子分析法是主成分分析法的一种发展。两种方法差不多一样,我们容易在应用的过程中混淆。为了更好的应用到实践中,应当正确地认识两种方法之间的联系和区别,针对不同问题选择恰当的方法。这章我们比较这两种方法,讨论之间的联系区别[38,39]。

  4.1两者相同之处

  4.1.1基本思想大致相同

  两种方法的基本思想都是想办法去除原来变量的相关性。想办法精简原相关变量结构和减少原来变量的维数。

  最终目标是降维、排序。

  4.1.2解决问题步骤相似

  两种方法都是利用相关系数阵或协方差矩阵的特征根和特征向量之间的不相关的特性,进行综合评价[29]。因子分析比多元统计分析多了两个步骤。

  4.1.3都从信息量角度确定权数

  主成分分析法与因子分析法都是利用方差表明信息量,方差和信息量正比。权数和信息量,两者也成正比。

  4.1.4两者结果形式相似

  主成分分析与因子分析都关注了方差大的变量,很少关注对方差较小的变量。

  4.2两者不同之处

  4.2.1系数的意义不同

  主成分系数表示在Yj中信息量,不是Yj与相关系数。因系数是与Fj的相关系数。

  4.2.2系数阵的确定方式不同

  它们中的系数阵都来自相关系数矩阵的特征向量。主成分系数有的限制条件[32],主成分分析中的系数阵具有唯一性。因子分析中,有任意正交矩阵?,使成立,所也是公共因子

  4.2.3分析形式不同

  主成分分析形式唯一;因子分析形式不唯一,可旋转。

  4.2.4方差不同

  主成分分析:Var(Yi)??i,其中?i为Fi的方差。

  因子分析:Var(Fi)?1。

  4.3本章小结

  本章比较了主成分分析和因子分析的模型、计算过程等。探讨了两种方法的异同之处,为后面的分析进行理论层面的铺垫。

  第五章主成分分析与因子分析的应用

  两者方法非常相似,在对SPSS统计软件进行分析时,人们容易混淆两种方法。结果容易出现偏差。我们要清楚它们在软件进行过程的联系和区别[40],利用好这两种方法,增强研究的科学性。我们这章通过SPSS软件[41]比较用主成分分析法、因子分析法对同学课程分数进行评价区别。这里数据选取了33个同学的15个课程的分数。

  5.1主成分分析法的应用

  5.1.1 SPSS软件实现过程

  通过KMO and Bartlett's Test检验变量间的相关性。结果如图所示,结果表明KMO值为0.787,大于0.50,数据能作主成分分析。巴特利特检验统计值的显著性概率是0.000,小于0.01,说明数据有相关性,能做主成分分析。

  选取数据,用SPSS英文版软件做主成分分析。

  1、选择数据,File→Open→Data。通过命令Analyze→Descriptive Statistics→Descriptives,选中“Save standardized values as variables”标准化数据并保存。选择菜单Analyze→Data Reduction→Factor[42]。

  2、设置参与主成分分析的变量。单击“Variables”,选中15门课程(即15个变量),进入“Variables”框内。

  3、主成分分析的有关控制参数设置。单击“extraction”,“Method”选择Principal components,“Analyze”选项是选择依据什么来提取因子变量,选择相关系数矩阵“Correlation matrix”。“Extract”选项用于指定因子个数的标准,选择“Eigenvalues over”为1。“Number of factor”可以输入要提取因子的个数。选择默认的特征值大于1。“Display”选择与因子提取的相关信息。选中“Unrotated factor solution”和“Scree plot”。“Maximum Iterations for Convergence”选项指定收敛的最大迭代次数,选取了默认的25次,单击“Continue”。

  4、“Rotation”,方法选择None,不需要因子旋转,单击“Continue”。

  5、单击“Descriptives”。在“Statistics”选项取选择“Initial solution”输出初始分析结果。在“Correlation Matrix”选项区选取“KMO and Bartlett's test of sphericity”,单击“Continue”。

  6、设置主成分得分选项。其中,“Save as variables”是保存因子得分作为新变量。在“Method”选项中选取“Regression”回归法,选择“Display factor score coefficient matrix”输出因子得分系数矩阵,单击“Continue”。

  7、设置有关输出的选项。单击“option”。“Missing Values”中选择“Exclude cases listwise”删除所有缺失值的个例。在系数显示格式“Coefficient Display Format”中选择载荷系数按照数值大小排列“Sorted by size”,单击“Continue”。

  8、完成设置后,单击“OK”按钮。开始主成分分析,输出结果。

  5.1.2统计分析结果和讨论

  共同度越高越合理。表中的变量共同度都大于58%,说明每门课程是均衡的。由表5.3可知,特征值大于1时取4个公共因子,累计方差贡献率大于80%取4个公共因子。我们不需要做第二次分析。

  得到碎石图,如图5.1:

  得到解释总方差表,如表5.3:

  上面说明选取4个主成分的累计贡献率为80.460%,大于80%,选取4个主成分是可行的。得到如下主成分载荷阵:

  上表说明每个主成分对每个指标的影响程度,数值越大,说明主成分对应指标的信息量越大。

  得到如下的主成分得分系数矩阵:

  在本例中,15门学科即为15个变量,根据主成分得分系数矩阵与变量观测值得出主成分得分模型[47]:

  下面我们用各主成分的贡献率为权重进行加权平均:

  得分结果如表5.6所示。

  表5.6说明,比较加权成绩排名和主成分排名,二者的排名差不多相同,这说明使用主成分分析法进行综合评价是合理的。

  根据表5.7展示了同学的综合主成分得分和各主成分得分,也可对某各主成分进行排名,利于全面地对学生综合评价[45]。

  5.2因子分析法的应用

  5.2.1 SPSS软件实现过程

  因子分析中也使用KMO and Bartlett's Test检测数据相关性。结果显示KMO值为0.787,大于50%,说明数据能做因子分析。Bartlett's Test统计值的显著性概率是0.000,小于1%,说明数据具有相关性,可做因子分析。

  过程1至过程3与主成分分析相同。

  过程4选择因子载荷矩阵旋转方法。选择方差极大法旋转。“Display”选项选择“Rotated solution”和“Loading plot(s)”。最大收敛性迭代次数为25次,单击“Continue”[42]。

  过程5至过程8与主成分分析一样。

  5.2.2统计分析结果和讨论

  表5.3展示解释方差。本例中有4个因子的特征值大于1,应保留四个因子。选择累计贡献率超过80%,也应保留四个因子。原始数据的信息总量有80.460%被提取,在80%-85%之间是最好的。选取四个公共因子能够反映学生的成绩情况,表明分析结果是理想的。

  碎石图的Y轴为Eigenvalue(特征值),X轴为Component Number(特征值序号)。特征值按大小排序后有明显的拐点,之后与小因子之间的连线很缓。综合考虑,取到较为明显的拐点4,保留前4个因子的信息量,并且前4个因子贡献率占总的80.460%,则提取前4个因子符合因子分析的原理。