Собесов

Доверительный интервал vs p-value — что показывать стейкхолдеру

Статистика и теорверИнтерпретация статистикиСредняяMiddle

Условие

Что лучше показывать в отчёте по A/B-тесту: p-value или доверительный интервал? Чем они отличаются и как их интерпретировать?

Решение

p-value

Вероятность получить наблюдаемый (или более экстремальный) результат при условии H0 (нет эффекта). Сам по себе p-value не говорит:

  • насколько большой эффект,
  • вероятность того, что H1 верна,
  • является ли результат «реальным».

p < 0.05 ≠ «есть эффект». Это «при отсутствии эффекта мы наблюдали бы такие данные с вероятностью < 5%». Не путать с обратным.

Доверительный интервал (CI)

Интервал значений, в который при многократном повторении эксперимента истинный параметр попадал бы в (1 - α) доли случаев. На 95%-CI: «такой интервал содержит истинное значение в 95% повторных экспериментов».

Что даёт CI, чего не даёт p-value:

  • Размер эффекта в естественных единицах (например, «+50 ± 30 рублей выручки на пользователя»).
  • Знак эффекта — положительный/отрицательный.
  • Точность оценки — широкий CI = низкая точность.
  • Практическую значимость — попадает ли интервал целиком в зону «много», «мало», «практически 0».

Как лучше показывать стейкхолдеру

CI строго лучше для отчёта:

  • Менеджеру понятнее: «эффект между +2% и +5%» — это конкретно.
  • Сразу виден размер эффекта и неопределённость.
  • Не порождает «cargo cult» «p < 0.05 = выкатим».

p-value — служебная вещь для аналитика. На дашборде должны быть:

  • Эстимейт эффекта.
  • 95%-CI.
  • Размер выборки и MDE.
  • (Опционально) p-value мелким шрифтом.

Связь

CI и p-value математически эквивалентны для двусторонних z/t-тестов: p < α0 ∉ (1-α)-CI. Но информации в CI больше.

Альтернативы

  • Bayesian подход: распределение апостериорной вероятности эффекта, можно выводить «вероятность того, что новый вариант лучше старого больше чем на X%».
  • Sequential testing (mSPRT, AGL Optimizely) — для частого подсматривания.

Подводные камни

  1. Считать p > 0.05 доказательством H0. Это «недостаточно данных», а не «нет эффекта».
  2. Считать ширину CI «вероятностью». CI — это процедура, а не вероятность для конкретного интервала. Bayesian credible interval — другое.
  3. Не указывать единицы. «+0.05» — в чём? Абсолют, относительный, в долях процента?
  4. Использовать CI для решения «выкатить ли». Решение — соотношение CI с MDE, а не «не пересекает 0».

Эталонный ответ

В отчёте — CI и оценка эффекта, p-value как technical detail. CI даёт размер, знак и точность, p-value — только бинарное «значимо/нет», и это слишком грубая информация для решения.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти