Условие
Что лучше показывать в отчёте по A/B-тесту: p-value или доверительный интервал? Чем они отличаются и как их интерпретировать?
Решение
p-value
Вероятность получить наблюдаемый (или более экстремальный) результат при условии H0 (нет эффекта). Сам по себе p-value не говорит:
- насколько большой эффект,
- вероятность того, что H1 верна,
- является ли результат «реальным».
p < 0.05 ≠ «есть эффект». Это «при отсутствии эффекта мы наблюдали бы такие данные с вероятностью < 5%». Не путать с обратным.
Доверительный интервал (CI)
Интервал значений, в который при многократном повторении эксперимента истинный параметр попадал бы в (1 - α) доли случаев. На 95%-CI: «такой интервал содержит истинное значение в 95% повторных экспериментов».
Что даёт CI, чего не даёт p-value:
- Размер эффекта в естественных единицах (например, «+50 ± 30 рублей выручки на пользователя»).
- Знак эффекта — положительный/отрицательный.
- Точность оценки — широкий CI = низкая точность.
- Практическую значимость — попадает ли интервал целиком в зону «много», «мало», «практически 0».
Как лучше показывать стейкхолдеру
CI строго лучше для отчёта:
- Менеджеру понятнее: «эффект между +2% и +5%» — это конкретно.
- Сразу виден размер эффекта и неопределённость.
- Не порождает «cargo cult» «p < 0.05 = выкатим».
p-value — служебная вещь для аналитика. На дашборде должны быть:
- Эстимейт эффекта.
- 95%-CI.
- Размер выборки и MDE.
- (Опционально) p-value мелким шрифтом.
Связь
CI и p-value математически эквивалентны для двусторонних z/t-тестов: p < α ⇔ 0 ∉ (1-α)-CI. Но информации в CI больше.
Альтернативы
- Bayesian подход: распределение апостериорной вероятности эффекта, можно выводить «вероятность того, что новый вариант лучше старого больше чем на X%».
- Sequential testing (mSPRT, AGL Optimizely) — для частого подсматривания.
Подводные камни
- Считать
p > 0.05доказательством H0. Это «недостаточно данных», а не «нет эффекта». - Считать ширину CI «вероятностью». CI — это процедура, а не вероятность для конкретного интервала. Bayesian credible interval — другое.
- Не указывать единицы. «+0.05» — в чём? Абсолют, относительный, в долях процента?
- Использовать CI для решения «выкатить ли». Решение — соотношение CI с MDE, а не «не пересекает 0».
Эталонный ответ
В отчёте — CI и оценка эффекта, p-value как technical detail. CI даёт размер, знак и точность, p-value — только бинарное «значимо/нет», и это слишком грубая информация для решения.