主成分分析的数据预处理：异常值处理的那些事儿

说实话，我第一次接触主成分分析（PCA）的时候，根本没把异常值当回事。那时候觉得嘛，数据嘛，有几个特别突出或者特别小的值不是很正常吗？后来在实际项目中吃了几次亏，才真正意识到异常值对PCA的影响有多致命。这篇文章想跟各位聊聊，PCA预处理阶段到底该怎么处理异常值这个"不速之客"。

先说个真实的教训吧。有个项目做客户画像分析，数据量还不小，几万条记录。用PCA降维之后，出来的结果怎么也解释不通，第一主成分的解释力高得离谱，后面的主成分几乎没信息。后来排查好久才发现，数据里有几个VIP客户的消费金额是普通用户的几百甚至上千倍，这几个极端值直接把整个主成分结构给"绑架"了。从那以后，我对异常值这件事就再也不敢马虎了。

为什么异常值对PCA影响这么大？

要理解这个问题，得先回想一下PCA的基本原理。PCA的本质是找数据中方差最大的方向作为主成分。问题就出在这里——方差这个统计量对极端值极其敏感。一个偏离群体太远的点，可能带来巨大的方差贡献，让整个主成分轴都往它那边歪。

举个直观的例子。假设有一组二维数据，大部分点分布在(1,1)、(1,2)、(2,1)、(2,2)这个区域，方差差不离。但如果你加进去一个点(100,100)，整个数据集的协方差矩阵会被这个点主导。第一主成分基本上就是这个点和其他所有点连线的方向，真正有意义的局部结构反而被掩盖了。

PCA使用的协方差矩阵计算公式是这样的：

Cov(X,Y) = Σ(xi - x̄)(yi - ȳ) / (n-1)

看到这个除以(n-1)了吗？当存在异常值时，x̄和ȳ都会被拉偏，导致正常数据点相对于均值的偏差计算失真。更要命的是，PCA假设数据服从多元正态分布，而异常值会严重破坏这个假设，导致主成分的解释力下降、结果不稳定。

异常值检测：先发现它才能处理它

检测异常值的方法其实有不少，我把自己常用的几种整理了一下，各有各的适用场景。

基于统计的方法

最经典的就是Z-score法和四分位距法（IQR）。Z-score说的是一个数据点距离均值有多少个标准差，通常绝对值超过3就被认为是异常值。IQR更简单粗暴，把数据排序后算25%分位数（Q1）和75%分位数（Q3），两者之差就是IQR范围，超出Q1-1.5×IQR到Q3+1.5×IQR之外的就是异常值。

这两种方法优点是简单易懂，缺点是只能处理单维度的情况。现实中异常值往往是多维度的，单变量检测可能把它们漏掉。比如某个点单独看每个维度都正常，但组合起来就是个离群点。

基于距离的方法

这时候就轮到基于距离的方法上场了。K近邻（KNN）距离和LOF（局部离群因子）是两个常用选项。KNN距离计算每个点到它最近的K个邻居的平均距离，距离特别大的点就是异常点。LOF更高级一些，它看的是这个点周围的密度和它邻居们周围密度的比值，密度明显偏低的地方就可能有异常值。

这两种方法能捕捉多维度的异常行为，但缺点是计算量大。数据量小的时候没问题，几万维度的数据跑起来就有点吃力了。

基于模型的方法

实践中我通常会组合使用好几种方法。单一方法可能会有遗漏，多种方法交叉验证一下心里更有底。比如先用IQR快速筛选一轮，再用LOF精细检查，最后用孤立森林兜底。这样一套流程下来，大部分异常值都能被逮住。

处理异常值：方法比困难多

检测到异常值之后怎么处理，这才是真正让人头疼的地方。不同的处理方式对PCA结果的影响可能天差地别。

直接删除：简单但有风险

最省事的办法就是删掉异常值。但如果异常值占比超过5%，就得慎重考虑了——删得太多可能丢失重要信息，而且删除操作本身也可能引入偏差。比如上面的VIP客户例子，那几个高消费客户恰恰是业务最关注的群体，全删了还做什么分析？

我一般会先分析异常值的成因。如果是测量错误、录入错误这种数据质量问题，放心大胆地删。如果是真实的极端情况，删之前最好跟业务方沟通一下，了解这些样本的特殊性。有时候保留这些极端值反而能发现一些有趣的洞察。

截断处理：温和一点的方案

不想删，但又怕极端值捣乱？可以试试截断处理。常用的方法是Winsorization，把超出一定范围的值替换成该范围的边界值。比如把所有超过99%分位数的值都变成99%分位数的值，这样既保留了极端值的存在感，又不让它们太突出。

这种办法比直接删除温和一些，对PCA结果的影响也比较可控。但要注意，截断会改变数据的分布形态，如果后续分析对分布假设有要求，可能会有问题。

变量变换：换个角度看数据

有时候换个思路更有用。对数变换、平方根变换、Box-Cox变换这些方法，能把右偏的数据变得更正态一些，同时压缩极端值的尺度。

以对数变换为例，原始数据可能是这样的：10, 100, 1000, 10000，取对数后变成1, 2, 3, 4，极端值的"极端程度"被大大压缩。但这种方法只适用于正值数据，而且会改变变量的实际含义，后续解释的时候要记得换算回去。

鲁棒标准化：让PCA更抗造

这是我想重点推荐的方法。传统的Z-score标准化用均值和标准差，一遇到异常值就失效。鲁棒标准化改用中位数和MAD（绝对中位差）来替代。中位数对极端值不敏感，MAD是median(|xi - median|)，也是鲁棒统计量。

用鲁棒标准化处理过的数据再做PCA，对异常值的容忍度会高很多。尤其是当异常值数量不多但数值特别极端的时候，这个方法比前面几种都管用。

几种方法的对比可以看看下面这个表：

处理方法	优点	缺点	适用场景
直接删除	简单直接，结果干净	可能丢失信息，引入偏差	异常值比例低、成因明确
截断处理	保留存在性，温和可控	改变分布，影响解释	极端值需要"降权"但不能删除
变量变换	压缩极端值，改善分布	改变含义，需反向解释	右偏数据，需要正态性
鲁棒标准化	对异常值不敏感	计算稍复杂	异常值不多但数值极端

实战建议：几个容易踩的坑

说了这么多方法，最后分享几条实战中总结的经验吧。

第一，检测和处理要分两步走。很多人喜欢边检测边处理，我建议先把所有异常值标记出来、汇总分析一遍，了解它们的分布特征和可能的成因，再决定怎么处理。同一批异常值可能是完全不同的原因造成的，有的数据问题该删，有的真实情况该保留或变换。

第二，处理前后最好都做一次PCA，对比一下结果变化。如果第一主成分的解释力从90%降到50%，说明原来的数据确实被异常值绑架了；如果处理前后差不多，可能你找到的那些"异常值"其实根本不是问题，反而删掉了一些有价值的信息。

第三，业务知识很重要。统计方法能告诉你哪些点数值上离群，但判断它是不是真正的"异常"需要结合业务。比如在欺诈检测场景下，看起来像异常的值反而是最值得关注的研究对象。这时候的处理策略就不是删除，而是单独分析或者加权处理。

第四，处理方法选好了，参数也要调。截断用95%还是99%分位？鲁棒标准化选什么系数？这些参数没有标准答案，得根据自己数据的特点和业务需求来试。不同的参数设置可能导向完全不同的结论。

写在最后

做PCA这些年，我越来越觉得数据预处理比算法本身重要。异常值处理作为预处理的关键环节，更是值得花时间琢磨的事情。方法就那么几种，但什么时候用哪种、参数怎么调、结果怎么解读，这些都是"只可意会不可言传"的功夫活了。

有时候看着一堆数据，我也会犯懒，想着用最简单的方法应付一下。但每次偷懒后面都跟着返工。与其那样，不如一开始就把异常值处理做扎实。毕竟，基础不牢，地动山摇嘛。

如果你也在做PCA相关的分析，希望这篇文章能给你一些参考。处理异常值没有银弹，关键是理解你的数据、理解你的业务，然后选择最合适的处理方式。祝你的PCA之路少一点坎坷，多一点发现。

主成分分析的数据预处理如何进行数据的异常值处理