主成分分析的数据要求和结果解读

记得有一次，我一个做市场调研的朋友跟我抱怨说她手里有一份问卷数据，二十多个问题，几百个受访者，她想搞清楚这些变量之间到底有什么关系，哪些是真正重要的核心因素，哪些又是可有可无的"噪音"。我问她有没有听说过主成分分析，她一脸茫然。那天晚上我花了两个小时给她讲解这个方法，听完之后她说了一句让我印象深刻的话："原来数据分析可以这么简单粗暴又有效。"

主成分分析这个方法诞生于上世纪初，由统计学家卡尔·皮尔逊提出。发展到现在，它已经成为数据分析领域最基础也最实用的技术之一。但我发现很多人在实际使用的时候，往往会遇到两个困惑：我的数据到底能不能用这个方法？分析出来的结果又该怎么解释？所以今天我想聊聊这两个问题，说说主成分分析的数据要求以及如何解读分析结果。

什么是主成分分析

在深入数据要求之前，我们先简单理解一下主成分分析到底在做什么。想象你有一堆二维平面上的点，它们分散在各个方向上。如果你斜着看这堆点，会发现它们沿着某个方向拉得很长，而在垂直方向上很"扁"。主成分分析做的事情，就是找到这个"拉得很长"的方向，作为第一主成分；然后找到与它垂直、解释剩余变异最多的方向，作为第二主成分；依此类推。

打个更生活的比方。假设你在整理房间，桌面上有几十件东西乱七八糟地堆着，你想用最少的盒子把它们装起来，并且每个盒子里装的都是相关联的东西。主成分分析就是帮你找到这些"维度"——可能第一个盒子装的是"工作相关"，第二个装的是"生活用品"，第三个装的是"娱乐消遣"。它把原本混杂在一起的信息，重新组织成几个相互独立的维度，让你能够用更少的信息量来描述整个局面。

这种降维的思想在当今大数据时代特别有价值。当我们面对成百上千个变量时，主成分分析可以帮助我们抓住主要矛盾，忽略次要细节。但这里有个关键问题：并不是所有数据都适合用这个方法。

数据要求：不是所有数据都能做主成分分析

样本量的基本要求

首先是样本量的问题。这个问题没有标准答案，不同的教材和学者会有不同的建议，但总体上有一个原则：样本量应该远大于变量数目。

经验法则告诉我们，样本量最好至少是变量数目的5到10倍。比如你有20个变量，那么样本量应该在100到200之间。如果你只有50个样本却要分析50个变量，那结果基本上是不可靠的，主成分会过度拟合数据中的噪声。另一个更宽松的规则是绝对数量——即使变量数目不多，样本量也应该在100以上，这样协方差矩阵的估计才会比较稳定。

为什么样本量这么重要？因为主成分分析的核心是计算变量之间的协方差或相关系数矩阵。如果你只有很少的样本，这个矩阵的估计就会有很大随机性，可能这次分析得出第一主成分主要代表某个变量，下次分析又变成另一个变量。这种不稳定的结果显然没有实际意义。

当然，现代统计学家也指出，样本量要求在一定程度上取决于数据质量。如果数据质量非常高，变量之间相关性很强，即使样本量稍小一些也可能有稳定的结果。反之，如果数据噪声很大，那可能需要更多的样本才能得到可靠的结论。

变量的类型和尺度

主成分分析对变量的类型是有要求的。它本质上是一种基于协方差或相关性的方法，因此最适合的是连续型变量。什么叫连续型？比如身高、体重、温度、收入这些可以测量出精确数值的变量。

那如果是分类变量呢？比如性别（男/女）、学历（本科/硕士/博士）、满意度（高/中/低）这些，能不能直接放进主成分分析？严格来说，不太适合。因为这些变量之间的"距离"很难定义——本科和硕士之间的"差距"和硕士和博士之间的"差距"，很难说是不是一样的。但实际操作中，很多人会把这两种变量混合在一起用，或者把有序分类变量当作连续变量来处理。这两种做法都有争议，如果你这么做，需要清楚知道自己在干什么以及可能带来的偏差。

更关键的是尺度问题。如果你把身高（单位：厘米）和体重（单位：公斤）放在一起分析，身高的数值范围可能是150到180，体重的范围可能是40到100。同样是变化一个单位，对分析结果的影响却大不相同。主成分分析会受到变量尺度的影响，数值大的变量往往会"主导"分析结果。

解决这个问题的方法是标准化。最常用的是Z-score标准化，把每个变量转换成均值为0、标准差为1的分布。这样所有变量都在同一个尺度上，分析结果就更公平地反映变量之间的关系，而不是被数值大小所左右。我个人的建议是，除非有充分的理由，否则做主成分分析之前先做标准化，这是避免很多麻烦的好习惯。

数据质量和缺失值

这个话题看起来有点枯燥，但非常重要。主成分分析对缺失值很敏感——如果你的数据里有缺失，整个协方差矩阵的计算就会出问题。

处理缺失值的方法有很多。最简单的是直接删除有缺失的样本，但如果缺失比例很高，删除之后样本量可能就不够了。另一个方法是均值填充，用这个变量的平均值来代替缺失值，但这样做会低估变量的变异。更好的方法是用多重插补或者专门为缺失数据设计的方法，但这些实施起来更复杂。

除了缺失值，还要注意异常值的问题。极端的异常值会严重影响协方差矩阵的估计，进而影响主成分分析的结果。在进行分析之前，最好先做一些探索性分析，检查一下有没有明显的异常值，决定是删除它们还是进行某种转换。

数据质量的另一个维度是重复样本。如果你的数据里有很多完全相同的记录，它们实际上不会提供新的信息，反而可能影响结果的稳定性。这种情况下可以考虑去重，或者至少在分析时意识到这一点。

变量间的相关性——这是最关键的要求

终于说到最核心的要求了。主成分分析的本质是提取变量之间的共同信息，如果所有变量之间都是相互独立的，那主成分分析基本没什么用——每个变量都会成为一个单独的主成分，而这并没有达到降维的目的。

所以，做主成分分析之前，最好先检查一下变量之间的相关性。最基本的方法是看相关系数矩阵。如果大部分相关系数的绝对值都低于0.3，那可能不太适合做主成分分析。反之，如果有相当多的变量之间存在中等程度以上的相关性（绝对值在0.5以上），那主成分分析很可能会有好的结果。

还有一个更正式的检验方法，叫做Bartlett球形检验。它的原假设是变量之间的相关系数矩阵是一个单位矩阵（即所有变量相互独立）。如果这个检验被拒绝了（p值很小），说明变量之间存在相关性，适合做主成分分析。

KMO（Kaiser-Meyer-Olkin）检验也是一个常用的指标。它测量的是变量之间的偏相关性——也就是控制了其他变量之后，任意两个变量之间的相关性。KMO值在0到1之间，越接近1说明变量之间的共同信息越多，越适合做主成分分析。一般认为KMO应该在0.6以上才可以接受，0.7以上比较合适，0.8以上就是很好的情况了。

结果解读：那些数字到底意味着什么

假设计算已经完成，软件输出了一堆结果，接下来该怎么解读？我来一一说明主要看哪些指标以及它们代表什么含义。

特征值和方差贡献率

每个主成分都有一个特征值，这个数字代表什么？它表示这个主成分能够解释多少原始数据的变异。特征值越大，说明这个主成分越重要。

举个具体的例子。假设你做主成分分析得到了四个主成分，它们的特征值分别是4.2、2.1、0.8和0.3。那么第一个主成分的特征值是4.2，意思是它解释了总变异的一部分。具体来说，把所有特征值加起来是7.4，那么第一个主成分的方差贡献率就是4.2除以7.4，大约是56.8%。第二个主成分贡献了2.1除以7.4，大约28.4%。前两个主成分加起来解释了85.2%的总变异。

这个信息非常有用。如果你发现前两三个主成分的累计方差贡献率就已经达到80%甚至90%，那说明用这几个主成分就能很好地代表原来的数据，降维效果很好。但如果需要很多主成分才能解释大部分变异，那可能说明数据比较"分散"，降维效果没那么理想。

关于应该保留多少个主成分，有几种常见的规则。最常用的是Kaiser规则——保留特征值大于1的主成分。因为如果一个主成分的特征值小于1，它解释的变异还没有一个原始变量多，保留它就没有意义。另外也可以看碎石图，特征值的下降趋势图，找到那个"拐点"——在拐点之前的主成分被认为是重要的。

成分矩阵——理解主成分的含义

成分矩阵（也叫因子载荷矩阵）告诉我们每个原始变量与每个主成分之间的关系。矩阵中的数字叫做载荷量（loading），它的取值范围大致在-1到1之间。

载荷量的绝对值越大，说明这个变量与主成分的关系越密切。如果载荷量是正的，说明这个变量和主成分是同方向变化的；如果是负的，则是反方向变化。

举个小例子帮助理解。假设你对10个国家的生活满意度做了主成分分析，第一个主成分的载荷显示，所有变量在上面都有较大的正载荷（0.7到0.9之间），那你可以解释这个主成分为"整体生活满意度水平"——数值越高，各方面满意度都高。如果第二个主成分在"经济满意度"上载荷很高（0.8），在"环境满意度"上是负的（-0.6），那这个主成分可能代表"经济与环境的权衡"——在这个维度上得分高的国家，经济好但环境差，得分低的则相反。

解读成分矩阵的时候，要注意载荷量的相对大小。有时候一个主成分可能在多个变量上都有显著的载荷，这时候你要找的是载荷最高的几个变量，用它们来给主成分起名字、做解释。如果一个变量在所有主成分上的载荷都很低，那可能说明这个变量和其他变量没什么关系，是"孤立的"。

成分得分——每个样本的值

除了主成分本身，分析结果还会给出每个样本在各个主成分上的得分。这是一个基于原始变量计算出来的综合指标。

比如对于第一个样本，你在第一主成分上的得分是1.5，在第二主成分上的得分是-0.3。这两个数字就代表这个样本在"综合生活满意度"和"经济环境权衡"这两个维度上的位置。你可以把这些得分当作新的变量，进行后续的聚类分析、回归分析等。

成分得分还有一个用途是比较样本。比如你可以看看哪些样本在第一主成分上得分最高，哪些最低，找出极端值，这往往能提供有价值的洞察。

结果可视化——让数字更直观

虽然这篇文章不让你放图片，但我还是要提一下可视化的重要性。主成分分析的结果可以通过散点图来展示——每个点代表一个样本，坐标是两个主成分的得分。这种图可以直观地看出样本的分布模式，有没有聚类现象，有没有离群点。

载荷图（或者叫双标图/biplot）则把样本点和变量载荷同时展示在一张图上，这是非常强有力的可视化工具。通过它你可以同时看到样本之间的关系和变量之间的关系。

一个完整的解读示例

为了把上面的内容串起来，让我用一个简化的例子来说明如何完整地解读主成分分析结果。假设我们对50个学生进行了问卷调查，测量了6个变量：数学成绩、语文成绩、英语成绩、物理成绩、化学成绩、生物成绩。分析之后得到以下结果：

主成分	特征值	方差贡献率(%)	累计方差贡献率(%)
PC1	2.8	46.7	46.7
PC2	1.5	25.0	71.7
PC3	0.8	13.3	85.0
PC4	0.5	8.3	93.3

特征值大于1的有前两个主成分，它们的累计方差贡献率是71.7%，还不错，但也不是特别高，说明这6个科目的成绩有一定的多样性，不是简单地可以用"文科好还是理科好"来概括。

再看成分矩阵：

变量	PC1	PC2
数学	0.35	0.72
语文	0.68	-0.15
英语	0.71	0.08
物理	0.18	0.85
化学	0.42	0.56
生物	0.55	0.29

第一主成分在语文、英语、生物上有较高的正载荷，我们可以把它解释为"文科倾向"。第二主成分在数学和物理上有很高的正载荷，可以解释为"理科倾向"。有趣的是，化学在两个主成分上都有一定载荷，说明化学成绩好的学生，可能文科和理科都不差。

基于这个解读，我们可以对50个学生进行分类——有些学生PC1得分高、PC2得分低，是典型的文科生；有些则相反，是典型的理科生；还有些两个得分都不错，是"全面型"选手。这种分类比简单地分成文理科要细致得多。

常见的误区和注意事项

最后我想说说做主成分分析时容易犯的几个错误。

第一，不要机械地看累计方差贡献率。有人说前几个主成分解释了80%的变异就够了，这个标准不是绝对的。如果你的目的是数据可视化，那80%可能没问题；如果是要做后续建模，可能需要更高的比例；如果只是探索性分析，60%、70%也可以接受。关键是结合你的研究目的来决策。
第二，主成分分析的结果需要是可解释的。如果某个主成分在所有变量上的载荷都差不多，或者载荷分布很奇怪，让你无法给它一个合理的解释，那就要小心了——可能这个主成分只是噪声，也可能数据本身有问题。
第三，主成分分析不会改变变量之间的关系，它只是换了一种描述方式。有人误以为做了主成分分析就能消除多重共线性问题，其实不是的——主成分之间虽然相互独立，但原始变量之间的关系仍然存在。
第四，结果的稳定性很重要。如果可能的话，可以尝试不同的方法（比如不同的标准化方式、是否旋转）来看看结论是否一致。如果换一种方法结论就变了，那就要谨慎对待。

主成分分析是一个很强大的工具，但它不是万能的。理解它的数据要求，才能判断什么时候该用它；学会解读结果，才能从中提炼出有价值的洞察。希望这篇文章能帮助你在面对复杂数据的时候，多一条思路。

对了，如果你对数据分析还有其他疑问，或者想了解更多实用的方法，欢迎随时交流。数据分析这条路，最好的学习方式就是一边实践一边思考，踩过坑之后才能真正理解那些抽象的概念。

主成分分析的数据要求和结果解读

主成分分析的数据要求和结果解读

什么是主成分分析

数据要求：不是所有数据都能做主成分分析

样本量的基本要求

变量的类型和尺度

数据质量和缺失值

变量间的相关性——这是最关键的要求

结果解读：那些数字到底意味着什么

特征值和方差贡献率

成分矩阵——理解主成分的含义

成分得分——每个样本的值

结果可视化——让数字更直观

一个完整的解读示例

常见的误区和注意事项

猜你喜欢

专享教育版上线！

标签云

猜你喜欢

小浣熊家族 Raccoon - AI 智能助手 - 商汤科技

办公小浣熊是商汤科技推出的AI办公助手，办公小浣熊2.0版本全新升级