Собесов

Хабр Статистика — Центральная предельная теорема: формулировка и применение

Статистика и теорверЦПТЛёгкаяMiddle

Условие

Сформулируйте центральную предельную теорему (ЦПТ). Приведите два прикладных примера, где она важна аналитику.

Решение

Формулировка (классическая, для iid)

Пусть X_1, X_2, …, X_n — независимые одинаково распределённые случайные величины с конечным средним μ и конечной дисперсией σ². Тогда при n → ∞:

nXˉnμσdN(0,1)\sqrt{n} \cdot \frac{\bar X_n - \mu}{\sigma} \xrightarrow{d} \mathcal{N}(0, 1)

Иначе: распределение выборочного среднего стремится к нормальному с центром μ и дисперсией σ²/nнезависимо от формы исходного распределения X.

Прикладные следствия

  1. Доверительный интервал для среднего без знания распределения. mean ± 1.96 · SE корректен для большой выборки, даже если данные сильно скошены.

  2. T-test и Z-test «работают» на любых данных при больших n. Хотя формально t-test предполагает нормальность X, фактически он использует нормальность среднего, что даёт ЦПТ.

  3. Дисперсия среднего падает как 1/n. Удвоение выборки сужает CI в √2 раз. Удвоение точности (вдвое более узкий CI) требует четырёхкратной выборки.

Когда ЦПТ «не помогает»

  • Heavy tails без конечной дисперсии (например, Коши). Среднее не стабилизируется ни при каких n.
  • Маленькое n (n < 30 эмпирически, но порог зависит от skewness). На скошенных данных (выручка с китами) даже n=500 может быть мало.
  • Не-iid данные (временной ряд с автокорреляцией, кластерные данные). Нужно адаптировать SE.

Пример симуляции

import numpy as np
import matplotlib.pyplot as plt
 
# Исходные данные — экспоненциальные (скошенные)
np.random.seed(42)
for n in [1, 5, 30, 100]:
    means = [np.random.exponential(scale=1, size=n).mean() for _ in range(10000)]
    plt.hist(means, bins=50, alpha=0.5, label=f"n={n}")
plt.legend(); plt.show()

Видно, как от экспоненциальной форма распределения среднего приходит к колоколу.

Подводные камни

  1. «ЦПТ говорит, что данные нормальные». Нет — нормально распределяется среднее, а не сами данные.
  2. «n=30 — магическая граница». Это эмпирическое правило для слабо скошенных данных. Для heavy tails нужно гораздо больше.
  3. Применять к медиане. Для медианы тоже есть асимптотическая нормальность, но с другой дисперсией (1/(4 f(median)² n)).
  4. ЦПТ + heavy tails. Конечная дисперсия — обязательное условие. Без неё (Парето с α≤2) ЦПТ не работает.
  5. Маленькое n + скошенность → t-test может дать неверный CI. Лучше bootstrap.

Эталонный ответ

ЦПТ: для iid с конечным σ² распределение (X̄ - μ)·√n / σ стремится к N(0,1) независимо от формы X. Это обоснование t/z-тестов, доверительных интервалов и асимптотической точности ±1/√n оценок. Не работает при бесконечной дисперсии, маленьком n с сильным skewness и зависимых данных.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти