abtest 数据分析的核心指标和结果判定

说实话，我刚接触AB测试的时候，完全是一头雾水。那时候我觉得这玩意儿无非就是"对照组放A，实验组放B，谁数据好就选谁"。后来发现事情远没有这么简单，选错了指标、误读了数据、没跑够样本量，这些坑我基本都踩过一遍。今天就把我这些年的实战经验整理一下，说说AB测试到底该看哪些指标，以及结果该怎么判定。

先说个事儿吧。去年有个朋友兴奋地跟我说，他做了个按钮颜色的测试，红色按钮的点击率比绿色高了15%，所以他要把所有按钮都改成红色。我问他跑了多久，他说跑了一周，大概有3000个用户。我当时就笑了，这数据你敢信吗？后来一分析，果然是因为周末流量波动导致的假阳性。这个故事告诉我们，AB测试不是简单地比大小，背后有一套完整的统计学逻辑。

一、为什么要做AB测试

在聊具体指标之前，我想先说清楚AB测试的本质。它本质上是一个对照实验，通过控制变量来验证某个假设是否成立。你可能会说，我知道某个设计更好啊，为什么还要测？但问题是，你以为的"好"可能只是你觉得好，用户不一定买账。

我记得之前有个产品经理跟我说，他认为深色模式更高级，所以坚持要把新功能做成深色的。结果AB测试一跑，数据表明浅色模式的转化率高了23%。这位产品经理当时脸都绿了，但事实就是事实。用户的审美和决策习惯，往往和产品经理的直觉有很大的偏差。

AB测试的另一个价值在于风险控制。如果你想上一个新功能，直接全量上线万一出了问题怎么办？但如果是先让5%的用户试试，发现数据不好就及时止损，这个风险就小很多。这也是为什么现在很多公司都把AB测试作为产品迭代的必经流程。

二、核心指标怎么选

这是AB测试最关键的一步，也是最容易出错的一步。指标选错了，后面所有的工作都白费。我见过太多案例，团队辛辛苦苦跑了两周测试，最后发现看的是个没什么意义的指标。

2.1 转化率类指标

转化率应该是最常用的指标之一了。所谓转化率，就是完成目标行为的用户数除以参与测试的用户总数。比如点击按钮的用户数除以看到按钮的用户数，就是点击转化率；提交订单的用户数除以加购的用户数，就是下单转化率。

但转化率也有讲究。你要明确你的"转化"到底是什么。比如你是想提高注册转化率，那要看的是"开始注册→完成注册"这个链条。如果你看的是"访问页面→点击注册按钮"，那这个指标就叫点击率，不是转化率。很多人会把这俩搞混。

我建议在开始测试前，先画一张用户路径图，标注清楚每个关键节点，然后问自己：我要优化的到底是哪个节点？只有想清楚了这个问题，才能选对指标。

2.2 点击率和参与度指标

点击率顾名思义，就是点击次数除以曝光次数。这个指标适合用来测试那些"能不能引起用户注意"的问题。比如你设计了一个新的banner图，想知道用户会不会点它，那看点击率就对了。

但点击率高不代表用户真的喜欢你的东西。举个例子，我之前测试过一个诱导点击的文案，"点击领取999元红包"，点击率确实很高，但用户点进去发现没有红包，跳出率高达80%。这种点击率就是虚高的，没有实际意义。

所以点击率通常要和参与度指标配合使用。参与度指标包括页面停留时长、滚动深度、点击位置分布等等。这些指标能帮你判断用户是随便点了一下，还是真的对你的内容感兴趣。

2.3 留存和活跃度指标

有些功能你不能只看短期效果，还要看长期影响。比如你想上一个新功能，这个功能可能第一次用没什么感觉，但用久了会越来越顺手。这时候就需要看留存指标了。

留存率一般看次日留存、7日留存、30日留存这些维度。如果你发现实验组的用户虽然第一次使用数据不太好，但7日留存明显高于对照组，那可能说明这个功能需要用户一定的学习成本，长期价值是存在的。

活跃度指标的话，常用的有DAU、MAU、使用频次、使用时长等等。这些指标适合用来评估那些"增加用户粘性"的功能。比如你想知道一个社区功能能不能让用户更频繁地打开APP，那就要看活跃度指标，而不是转化率。

2.4 收入和商业化指标

如果是电商或者有变现业务的产品，收入相关指标肯定是重中之重。常见的指标包括ARPU（每用户平均收入）、LTV（用户生命周期价值）、GMV、付费转化率等等。

这里有个坑需要注意：有些功能可能会提高短期收入，但损害长期价值。比如某些"杀鸡取卵"的变现策略，确实能短期提升GMV，但用户流失严重，LTV反而下降了。所以收入指标最好配合留存指标一起看，不要只看短期数据。

指标类型	典型指标	适用场景
转化率类	注册转化率、下单转化率	优化用户漏斗中的关键节点
点击参与类	点击率、页面停留时长	测试素材创意和用户注意力
留存活跃类	次日留存、DAU、使用频次	评估功能长期价值和用户粘性
商业化类	ARPU、GMV、付费率	优化变现策略和收入模型

上面这张表算是对核心指标的一个小总结。但我要强调一下，指标选择不是一成不变的。同一个功能，在不同的测试阶段可能需要看不同的指标。比如一个新功能上线，第一周可能看激活转化率，中间几周看留存，最后几周看收入。这是一个动态的过程。

三、结果怎么判定

选对了指标，接下来就是判定结果了。这一步同样有很多坑，最常见的就是"凭感觉"。很多人看到实验组数据比对照组高了，就觉得实验组赢了，可以上线了。但这个"高"是不是显著的呢？有没有可能是随机波动导致的？这些问题不问清楚，数据就不敢信。

3.1 统计显著性到底是啥

统计显著性是用来判断两组数据差异是不是"真实存在"的概念。听起来有点抽象，我打个比方吧。假设你抛硬币，抛10次可能正面朝上7次，单纯看比例是70%，但这能说明硬币有问题吗？不能，因为正常硬币也有可能这样。但如果抛10000次都是正面朝上，那这肯定不是随机能解释的了。

AB测试的逻辑类似。实验组比对照组高了2%，这个差异是真实存在的，还是仅仅因为运气好/不好导致的？统计显著性就是用来回答这个问题的。

通常我们会设定一个显著性水平，业内一般用0.05（也就是95%置信水平）。如果p值小于0.05，我们就认为这个差异是显著的，可以信任的。p值你可以简单理解为"假设两组没有差异，观察到当前这种差异的概率"。p值越小，说明当前差异越不可能是随机波动导致的。

3.2 样本量要跑多少

样本量不足是AB测试最常见的问题之一。如果你只让100个用户参与测试，就算数据有明显差异，你也不敢轻易相信。因为样本量太小，随机波动的影响太大了。

那样本量多少才够呢？这取决于你期望检测到的最小差异。比如你希望能够检测到5%的提升，那需要的样本量就比检测1%提升要少。另外还和指标的基准值有关，转化率越低，需要的样本量越大。

一般来说，AB测试开始前都应该先算好样本量，然后确保实验跑够了样本量再下结论。如果你跑了两天发现实验组数据很好，就迫不及待地下了结论，这时候很可能样本量根本不够，结论是不可靠的。

3.3 那些容易踩的坑

除了统计显著性和样本量，还有一些常见的坑需要避开。

首先是时间因素。很多产品的数据是有周期性波动的，比如工作日和周末的流量、用户行为可能完全不同。如果你只跑了两天数据，很可能只是刚好赶上了周末的波动。我一般建议至少跑完一个完整周期，比如一周或者两周，然后再看结果。

其次是新鲜效应。有些改动刚上线的时候用户会觉得新鲜，数据特别好。但过一段时间新鲜感过去了，数据就回落了。这种情况下，只看短期数据就会得出过于乐观的结论。所以对于一些重要功能，我建议观察至少一个月的数据变化趋势。

还有就是辛普森悖论。这个稍微有点复杂，简单说就是分组看数据A组比B组好，合起来看反而A组不如B组。比如你分别测试iOS和Android用户，可能iOS实验组比对照组好，Android实验组也比对照组好，但两个组合起来反而实验组变差了。这种情况虽然少见，但一旦遇到就会很懵。所以分组数据也要分别检查，不要只看不分组的数据。

四、实际应用的一些经验

说了这么多理论，最后聊点实操层面的经验吧。

在做AB测试之前，一定要先明确测试目标。是为了验证某个假设，还是为了比较两种方案哪个更好？目标不同，测试设计和指标选择也会不同。如果你只是想"试试看哪个好"，那大概率会陷入数据海洋，不知道该信哪个。

还有就是测试记录一定要详细。我见过很多团队，测试做完就结束了，也不记录当时的背景、假设、结果。过了三个月，同一个坑又踩一遍。如果能够建立起完善的测试知识库，把每次测试的经验教训沉淀下来，团队的迭代效率会高很多。

另外，AB测试的结果要结合定性分析来看。数据告诉你"用户更喜欢A方案"，但你还是要知道"为什么"。是界面更清晰了？还是操作更便捷了？这些洞察是单纯看数据看不出来的，但对你后续的产品优化非常有价值。

说到这儿，我想介绍一下我们团队在使用的一个工具——Raccoon - AI 智能助手。它在AB测试这个场景下帮了我不少忙。比如在做测试设计的时候，它能帮我梳理用户路径，识别关键节点；在结果分析的时候，它能自动进行统计检验，告诉我显著性水平怎么样；在沉淀经验的时候，它能帮我整理测试记录，建立知识库。当然，工具只是辅助，最终的判断还是要靠人来做。

五、写在最后

AB测试这个话题其实可以聊很久，今天说的这些也只是一些基础和经验之谈。核心就是要记住：选对指标、跑够样本、尊重数据、结合业务。

我始终觉得，AB测试与其说是一种技术，不如说是一种思维方式。它教会我们用数据说话，用实验验证假设，而不是凭感觉做决策。这种思维方式不仅适用于产品优化，在工作和生活的很多场景下都很有价值。

如果你之前没有系统地做过AB测试，建议从一个小测试开始试试手。比如改个按钮颜色、调整个文案，先跑通整个流程，感受一下从设计到分析到得出结论的完整过程。踩几个小坑之后，你对这些概念的理解会更深刻。

abtest 数据分析的核心指标和结果判定

abtest 数据分析的核心指标和结果判定

一、为什么要做AB测试

二、核心指标怎么选

2.1 转化率类指标

2.2 点击率和参与度指标

2.3 留存和活跃度指标

2.4 收入和商业化指标

三、结果怎么判定

3.1 统计显著性到底是啥

3.2 样本量要跑多少

3.3 那些容易踩的坑

四、实际应用的一些经验

五、写在最后

猜你喜欢

专享教育版上线！

标签云

猜你喜欢

小浣熊家族 Raccoon - AI 智能助手 - 商汤科技

办公小浣熊是商汤科技推出的AI办公助手，办公小浣熊2.0版本全新升级