Проверка корректности А/Б тестов

Время на прочтение
8 мин

Количество просмотров 11K

Хабр, привет! Сегодня поговорим о том, что такое корректность статистических критериев в контексте А/Б тестирования. Узнаем, как проверить, является критерий корректным или нет. Разберём пример, в котором тест Стьюдента не работает.

Меня зовут Коля, я работаю аналитиком данных в X5 Tech. Мы с Сашей продолжаем писать серию статей по А/Б тестированию, это наша третья статья. Первые две можно посмотреть тут:

  • Стратификация. Как разбиение выборки повышает чувствительность A/Б теста

  • Бутстреп и А/Б тестирование

Корректный статистический критерий

В А/Б тестировании при проверке гипотез с помощью статистических критериев можно совершить одну из двух ошибок:

  • ошибку первого рода – отклонить нулевую гипотезу, когда на самом деле она верна. То есть сказать, что эффект есть, хотя на самом деле его нет;

  • ошибку второго рода – не отклонить нулевую гипотезу, когда на самом деле она неверна. То есть сказать, что эффекта нет, хотя на самом деле он есть.

Совсем не ошибаться нельзя. Чтобы получить на 100% достоверные результаты, нужно бесконечно много данных. На практике получить столько данных затруднительно. Если совсем не ошибаться нельзя, то хотелось бы ошибаться не слишком часто и контролировать вероятности ошибок.

В статистике ошибка первого рода считается более важной. Поэтому обычно фиксируют допустимую вероятность ошибки первого рода, а затем пытаются минимизировать вероятность ошибки второго рода.

Предположим, мы решили, что допустимые вероятности ошибок первого и второго рода равны 0.1 и 0.2 соответственно. Будем называть статистический критерий корректным, если его вероятности ошибок первого и второго рода равны допустимым вероятностям ошибок первого и второго рода соответственно.

Как сделать критерий, в котором вероятности ошибок будут равны допустимым вероятностям ошибок?

Вероятность ошибки первого рода по определению равна уровню значимости критерия. Если уровень значимости положить равным допустимой вероятности ошибки первого рода, то вероятность ошибки первого рода должна стать равной допустимой вероятности ошибки первого рода.

Вероятность ошибки второго рода можно подогнать под желаемое значение, меняя размер групп или снижая дисперсию в данных. Чем больше размер групп и чем ниже дисперсия, тем меньше вероятность ошибки второго рода. Для некоторых гипотез есть готовые формулы оценки размера групп, при которых достигаются заданные вероятности ошибок.

Например, формула оценки необходимого размера групп для гипотезы о равенстве средних:

n > \frac{\left[ \Phi^{-1} \left( 1-\alpha / 2 \right) + \Phi^{-1} \left( 1-\beta \right) \right]^2 (\sigma_A^2 + \sigma_B^2)}{\varepsilon^2}

где \alpha и \beta – допустимые вероятности ошибок первого и второго рода, \varepsilon – ожидаемый эффект (на сколько изменится среднее), \sigma_A и \sigma_B – стандартные отклонения случайных величин в контрольной и экспериментальной группах.

Проверка корректности

Допустим, мы работаем в онлайн-магазине с доставкой. Хотим исследовать, как новый алгоритм ранжирования товаров на сайте влияет на среднюю выручку с покупателя за неделю. Продолжительность эксперимента – одна неделя. Ожидаемый эффект равен +100 рублей. Допустимая вероятность ошибки первого рода равна 0.1, второго рода – 0.2.

Оценим необходимый размер групп по формуле:

import numpy as np
from scipy import stats

alpha = 0.1                     # допустимая вероятность ошибки I рода
beta = 0.2                      # допустимая вероятность ошибки II рода
mu_control = 2500               # средняя выручка с пользователя в контрольной группе
effect = 100                    # ожидаемый размер эффекта
mu_pilot = mu_control + effect  # средняя выручка с пользователя в экспериментальной группе
std = 800                       # стандартное отклонение

# исторические данные выручки для 10000 клиентов
values = np.random.normal(mu_control, std, 10000)

def estimate_sample_size(effect, std, alpha, beta):
    """Оценка необходимого размер групп."""
    t_alpha = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    t_beta = stats.norm.ppf(1 - beta, loc=0, scale=1)
    var = 2 * std ** 2
    sample_size = int((t_alpha + t_beta) ** 2 * var / (effect ** 2))
    return sample_size

estimated_std = np.std(values)
sample_size = estimate_sample_size(effect, estimated_std, alpha, beta)
print(f'оценка необходимого размера групп = {sample_size}')
оценка необходимого размера групп = 784

Чтобы проверить корректность, нужно знать природу случайных величин, с которыми мы работаем. В этом нам помогут исторические данные. Представьте, что мы перенеслись в прошлое на несколько недель назад и запустили эксперимент с таким же дизайном, как мы планировали запустить его сейчас. Дизайн – это совокупность параметров эксперимента, таких как: целевая метрика, допустимые вероятности ошибок первого и второго рода, размеры групп и продолжительность эксперимента, техники снижения дисперсии и т.д.

Так как это было в прошлом, мы знаем, какие покупки совершили пользователи, можем вычислить метрики и оценить значимость отличий. Кроме того, мы знаем, что эффекта на самом деле не было, так как в то время эксперимент на самом деле не запускался. Если значимые отличия были найдены, то мы совершили ошибку первого рода. Иначе получили правильный результат.

Далее нужно повторить эту процедуру с мысленным запуском эксперимента в прошлом на разных группах и временных интервалах много раз, например, 1000.

После этого можно посчитать долю экспериментов, в которых была совершена ошибка. Это будет точечная оценка вероятности ошибки первого рода.

Оценку вероятности ошибки второго рода можно получить аналогичным способом. Единственное отличие состоит в том, что каждый раз нужно искусственно добавлять ожидаемый эффект в данные экспериментальной группы. В этих экспериментах эффект на самом деле есть, так как мы сами его добавили. Если значимых отличий не будет найдено – это ошибка второго рода. Проведя 1000 экспериментов и посчитав долю ошибок второго рода, получим точечную оценку вероятности ошибки второго рода.

Посмотрим, как оценить вероятности ошибок в коде. С помощью численных синтетических А/А и А/Б экспериментов оценим вероятности ошибок и построим доверительные интервалы:

def run_synthetic_experiments(values, sample_size, effect=0, n_iter=10000):
    """Проводим синтетические эксперименты, возвращаем список p-value."""
    pvalues = []
    for _ in range(n_iter):
        a, b = np.random.choice(values, size=(2, sample_size,), replace=False)
        b += effect
        pvalue = stats.ttest_ind(a, b).pvalue
        pvalues.append(pvalue)
    return np.array(pvalues)

def print_estimated_errors(pvalues_aa, pvalues_ab, alpha):
    """Оценивает вероятности ошибок."""
    estimated_first_type_error = np.mean(pvalues_aa < alpha)
    estimated_second_type_error = np.mean(pvalues_ab >= alpha)
    ci_first = estimate_ci_bernoulli(estimated_first_type_error, len(pvalues_aa))
    ci_second = estimate_ci_bernoulli(estimated_second_type_error, len(pvalues_ab))
    print(f'оценка вероятности ошибки I рода = {estimated_first_type_error:0.4f}')
    print(f'  доверительный интервал = [{ci_first[0]:0.4f}, {ci_first[1]:0.4f}]')
    print(f'оценка вероятности ошибки II рода = {estimated_second_type_error:0.4f}')
    print(f'  доверительный интервал = [{ci_second[0]:0.4f}, {ci_second[1]:0.4f}]')

def estimate_ci_bernoulli(p, n, alpha=0.05):
    """Доверительный интервал для Бернуллиевской случайной величины."""
    t = stats.norm.ppf(1 - alpha / 2, loc=0, scale=1)
    std_n = np.sqrt(p * (1 - p) / n)
    return p - t * std_n, p + t * std_n

pvalues_aa = run_synthetic_experiments(values, sample_size, effect=0)
pvalues_ab = run_synthetic_experiments(values, sample_size, effect=effect)
print_estimated_errors(pvalues_aa, pvalues_ab, alpha)
оценка вероятности ошибки I рода = 0.0991
  доверительный интервал = [0.0932, 0.1050]
оценка вероятности ошибки II рода = 0.1978
  доверительный интервал = [0.1900, 0.2056]

Оценки вероятностей ошибок примерно равны 0.1 и 0.2, как и должно быть. Всё верно, тест Стьюдента на этих данных работает корректно.

Распределение p-value

Выше рассмотрели случай, когда тест контролирует вероятность ошибки первого рода при фиксированном уровне значимости. Если решим изменить уровень значимости с 0.1 на 0.01, будет ли тест контролировать вероятность ошибки первого рода? Было бы хорошо, если тест контролировал вероятность ошибки первого рода при любом заданном уровне значимости. Формально это можно записать так:

Для любого \alpha \in [0, 1] выполняется \mathbb{P}(pvalue < \alpha | H_0) = \alpha.

Заметим, что в левой части равенства записано выражение для функции распределения p-value. Из равенства следует, что функция распределения p-value в точке X равна X для любого X от 0 до 1. Эта функция распределения является функцией распределения равномерного распределения от 0 до 1. Мы только что показали, что статистический критерий контролирует вероятность ошибки первого рода на заданном уровне для любого уровня значимости тогда и только тогда, когда при верности нулевой гипотезы p-value распределено равномерно от 0 до 1.

При верности нулевой гипотезы p-value должно быть распределено равномерно. А как должно быть распределено p-value при верности альтернативной гипотезы? Из условия для вероятности ошибки второго рода \mathbb{P}(pvalue \geq \alpha | H_1) = \beta следует, что \mathbb{P}(pvalue < \alpha | H_1) = 1 - \beta.

Получается, график функции распределения p-value при верности альтернативной гипотезы должен проходить через точку [\alpha, 1 - \beta], где \alpha и \beta – допустимые вероятности ошибок конкретного эксперимента.

Проверим, как распределено p-value в численном эксперименте. Построим эмпирические функции распределения p-value:

import matplotlib.pyplot as plt

def plot_pvalue_distribution(pvalues_aa, pvalues_ab, alpha, beta):
    """Рисует графики распределения p-value."""
    estimated_first_type_error = np.mean(pvalues_aa < alpha)
    estimated_second_type_error = np.mean(pvalues_ab >= alpha)
    y_one = estimated_first_type_error
    y_two = 1 - estimated_second_type_error
    X = np.linspace(0, 1, 1000)
    Y_aa = [np.mean(pvalues_aa < x) for x in X]
    Y_ab = [np.mean(pvalues_ab < x) for x in X]

    plt.plot(X, Y_aa, label='A/A')
    plt.plot(X, Y_ab, label='A/B')
    plt.plot([alpha, alpha], [0, 1], '--k', alpha=0.8)
    plt.plot([0, alpha], [y_one, y_one], '--k', alpha=0.8)
    plt.plot([0, alpha], [y_two, y_two], '--k', alpha=0.8)
    plt.plot([0, 1], [0, 1], '--k', alpha=0.8)

    plt.title('Оценка распределения p-value', size=16)
    plt.xlabel('p-value', size=12)
    plt.legend(fontsize=12)
    plt.grid()
    plt.show()

plot_pvalue_distribution(pvalues_aa, pvalues_ab, alpha, beta)

P-value для синтетических А/А тестах действительно оказалось распределено равномерно от 0 до 1, а для синтетических А/Б тестов проходит через точку [\alpha, 1 - \beta].

Кроме оценок распределений на графике дополнительно построены четыре пунктирные линии:

  • диагональная из точки [0, 0] в точку [1, 1] – это функция распределения равномерного распределения на отрезке от 0 до 1, по ней можно визуально оценивать равномерность распределения p-value;

  • вертикальная линия с x=\alpha – пороговое значение p-value, по которому определяем отвергать нулевую гипотезу или нет. Проекция на ось ординат точки пересечения вертикальной линии с функцией распределения p-value для А/А тестов – это вероятность ошибки первого рода. Проекция точки пересечения вертикальной линии с функцией распределения p-value для А/Б тестов – это мощность теста (мощность = 1 – \beta). 

  • две горизонтальные линии – проекции на ось ординат точки пересечения вертикальной линии с функцией распределения p-value для А/А и А/Б тестов.

График с оценками распределения p-value для синтетических А/А и А/Б тестов позволяет проверить корректность теста для любого значения уровня значимости.

Некорректный критерий

Выше рассмотрели пример, когда тест Стьюдента оказался корректным критерием для случайных данных из нормального распределения. Может быть, все критерии всегда работаю корректно, и нет смысла каждый раз проверять вероятности ошибок?

Покажем, что это не так. Немного изменим рассмотренный ранее пример, чтобы продемонстрировать некорректную работу критерия. Допустим, мы решили увеличить продолжительность эксперимента до 2-х недель. Для каждого пользователя будем вычислять стоимость покупок за первую неделю и стоимость покупок за второю неделю. Полученные стоимости будем передавать в тест Стьюдента для проверки значимости отличий. Положим, что поведение пользователей повторяется от недели к неделе, и стоимости покупок одного пользователя совпадают.

def run_synthetic_experiments_two(values, sample_size, effect=0, n_iter=10000):
    """Проводим синтетические эксперименты на двух неделях."""
    pvalues = []
    for _ in range(n_iter):
        a, b = np.random.choice(values, size=(2, sample_size,), replace=False)
        b += effect
        # дублируем данные
        a = np.hstack((a, a,))
        b = np.hstack((b, b,))
        pvalue = stats.ttest_ind(a, b).pvalue
        pvalues.append(pvalue)
    return np.array(pvalues)

pvalues_aa = run_synthetic_experiments_two(values, sample_size)
pvalues_ab = run_synthetic_experiments_two(values, sample_size, effect=effect)
print_estimated_errors(pvalues_aa, pvalues_ab, alpha)
plot_pvalue_distribution(pvalues_aa, pvalues_ab, alpha, beta)
оценка вероятности ошибки I рода = 0.2451
  доверительный интервал = [0.2367, 0.2535]
оценка вероятности ошибки II рода = 0.0894
  доверительный интервал = [0.0838, 0.0950]

Получили оценку вероятности ошибки первого рода около 0.25, что сильно больше уровня значимости 0.1. На графике видно, что распределение p-value для синтетических А/А тестов не равномерно, оно отклоняется от диагонали. В этом примере тест Стьюдента работает некорректно, так как данные зависимые (стоимости покупок одного человека зависимы). Если бы мы сразу не догадались про зависимость данных, то оценка вероятностей ошибок помогла бы нам понять, что такой тест некорректен.

Итоги

Мы обсудили, что такое корректность статистического теста, посмотрели, как оценить вероятности ошибок на исторических данных и привели пример некорректной работы критерия.

Таким образом:

  • корректный критерий – это критерий, у которого вероятности ошибок первого и второго рода равны допустимым вероятностям ошибок первого и второго рода соответственно;

  • чтобы критерий контролировал вероятность ошибки первого рода для любого уровня значимости, необходимо и достаточно, чтобы p-value при верности нулевой гипотезы было распределено равномерно от 0 до 1.

При
проверке гипотезы экспериментальные
данные могут противоречить
гипотезе
,
тогда эта гипотезаотклоняется.

В
противном случае, если экспериментальные
данные согласуются
с
гипотезой
,
то онане
отклоняется
.

Значит,
статистическая проверка гипотез,
основанная на экспериментальных данных,
неизбежно связанно с риском
принять ложное решение
.

Тогда
в терминах правильности или ошибочности
принятия H0
и
 можно
указать четыре потенциально возможных
результата применения критерия к
выборке. При
этом возможны ошибки двух родов.

Ошибкой первого
рода

называется
ошибка отклонения правильной гипотезы
.
Вероятность
ошибки первого рода равна
уровню значимости
,
т.е.

.

Эта
формула означает, что гипотеза
отклоняется с вероятностью,
хотя эта гипотеза верна. Название
«уровень значимости» в терминах «сходства
и различия» – это вероятность того, что
мы сочли различия существенными (приняли),
а они на самом деле случайны (верна
гипотеза).

Для того чтобы
проверяемая гипотеза была достаточно
обоснованно отвергнута, уровень
значимости выбирают достаточно малым,
в практике: 0,01; 0,001.

Ошибкой второго
рода

называется ошибка принятия неверной
гипотезы.
Вероятность
ошибки второго рода обозначается
:

.

Эта
формула означает, что гипотеза
принимается с вероятностью,
хотя верна альтернативная гипотеза.

Чем
меньше уровень значимости, тем меньше
вероятность забраковать верную гипотезу,
т.е. совершить ошибку первого рода, но
при этом увеличивается вероятность
принятия неверной гипотезы, т.е. совершения
ошибки второго рода.

Принята гипотеза

H0

H1

Верна

гипотеза

H0


вероятность правильно принять H0,
когда верна H0


вероятность ошибочно принять H1,
когда верна H0
(ошибка
1-го рода, уровень значимости
)

H1


вероятность ошибочно принять H0,
когда верна H1
(ошибка
2-го рода
)


вероятность правильно принять H1,
когда верна H
(мощность
критерия
)

Возможны
два
статистических правильных решения

по выборочным данным:

1) Принять верную гипотезу . Вероятность этого решения называетсяуровнем доверия;

2)
принять
верную гипотезу
.
Вероятностьтакого решения называетсямощностью
критерия
.
Мощность критерия в терминах
«сходство-различие» – это его способность
выявлять различия, если они есть
.

4.
Односторонний и двусторонний критерии

По
виду альтернативной (конкурирующей)
гипотезы
определяется вид критической области,
в которой результаты выборочного
наблюдения выглядят менее правдоподобными
в отношении нулевой гипотезы.

Если
конкурирующая гипотеза имеет вид
:,
то критическая область– правосторонняя и соответствующийкритерий
называется правосторонним,
а в случае
:критерий
называется левосторонним.

Область
допустимых

Правосторонняя

значений
критическая
область

(принятия
гипотезы
)
(отклоненияи принятия)

Если конкурирующая гипотеза имеет вид
:,
т.е.,
то критическая областьявляется объединением полубесконечных
промежутков: – двусторонняя.

Область

Критическая допустимых
Критическая

область значений область

Важное замечание.В психологии часто
эмпирическое значениесравнивается одновременно с двумя
критическими(0,05)
и(0,01),
которые соответствуют уровням значимости
в 5% и 1% и находятся по соответствующим
таблицам. Все три числа,(0,05),(0,01)
располагают на «оси значимости». Числоможет попасть в одну из трех областей:
незначимости различий, значимости
различий, неопределенности.

Область Область
Область

незначимости неопределенности
значимости

различий различий

К

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Материал из MachineLearning.

(Перенаправлено с Статистический тест)

Перейти к: навигация, поиск

Содержание

  • 1 Методика проверки статистических гипотез
  • 2 Альтернативная методика на основе достигаемого уровня значимости
  • 3 Типы критической области
  • 4 Ошибки первого и второго рода
  • 5 Свойства статистических критериев
  • 6 Типы статистических гипотез
  • 7 Типы статистических критериев
    • 7.1 Критерии согласия
    • 7.2 Критерии сдвига
    • 7.3 Критерии нормальности
    • 7.4 Критерии однородности
    • 7.5 Критерии симметричности
    • 7.6 Критерии тренда, стационарности и случайности
    • 7.7 Критерии выбросов
    • 7.8 Критерии дисперсионного анализа
    • 7.9 Критерии корреляционного анализа
    • 7.10 Критерии регрессионного анализа
  • 8 Литература
  • 9 Ссылки

Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

Методика проверки статистических гипотез

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) — последовательность m объектов из множества X.
Предполагается, что на множестве X существует некоторая неизвестная вероятностная мера \mathbb{P}.

Методика состоит в следующем.

  1. Формулируется нулевая гипотеза H_0 о распределении вероятностей на множестве X. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая H_0 и альтернативная H_1. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что H_1 означает «не H_0». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
  2. Задаётся некоторая статистика (функция выборки) T:\: X^m \to \mathbb{R}, для которой в условиях справедливости гипотезы H_0 выводится функция распределения F(T) и/или плотность распределения p(T). Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика T. Вывод функции распределения F(T) при заданных H_0 и T является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для F(T); в статистических пакетах имеются готовые вычислительные процедуры.
  3. Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число \alpha \in [0,1]. На практике часто полагают \alpha=0.05.
  4. На множестве допустимых значений статистики T выделяется критическое множество \Omega_\alpha наименее вероятных значений статистики T, такое, что \mathbb{P}\{T\in\Omega_\alpha\left|H_0\right.\} = \alpha. Вычисление границ критического множества как функции от уровня значимости \alpha является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
  5. Собственно статистический тест (статистический критерий) заключается в проверке условия:

Итак, статистический критерий определяется статистикой T
и критическим множеством \Omega_\alpha, которое зависит от уровня значимости \alpha.

Замечание.
Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна.
Тому есть две причины.

Альтернативная методика на основе достигаемого уровня значимости

Широкое распространение методики фиксированного уровня значимости было вызвано сложностью вычисления многих статистических критериев в докомпьютерную эпоху. Чаще всего использовались таблицы, в которых для некоторых априорных уровней значимости были выписаны критические значения. В настоящее время результаты проверки гипотез чаще представляют с помощью достигаемого уровня значимости.

Достигаемый уровень значимости (пи-величина, англ. p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия T:

p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где
\Omega_\alpha — критическая область критерия.

Другая интерпретация:
достигаемый уровень значимости p(T) — это вероятность при справедливости нулевой гипотезы получить значение статистики, такое же или ещё более экстремальное, чем T.

Если достигаемый уровень значимости достаточно мал (близок к нулю), то нулевая гипотеза отвергается.
В частности, его можно сравнивать с фиксированным уровнем значимости;
тогда альтернативная методика будет эквивалентна классической.

Типы критической области

Обозначим через t_\alpha значение, которое находится из уравнения F(t_\alpha) = \alpha, где F(t) = \mathbb{P}\left\{ T<t \right\} — функция распределения статистики T.
Если функция распределения непрерывная строго монотонная,
то t_\alpha есть обратная к ней функция:

t_\alpha = F^{-1}(\alpha).

Значение t_\alpha называется также \alphaквантилем распределения F(t).

На практике, как правило, используются статистики T с унимодальной (имеющей форму пика) плотностью распределения.
Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения.
Поэтому чаще всего возникают критические области одного из трёх типов:

  • Левосторонняя критическая область:
определяется интервалом \Omega_\alpha = (-\infty,\, t_\alpha).
пи-величина: p(T) = F(T).
  • Правосторонняя критическая область:
определяется интервалом \Omega_\alpha = (t_{1-\alpha},\,+\infty).
пи-величина: p(T) = 1-F(T).
  • Двусторонняя критическая область:
определяется двумя интервалами \Omega_\alpha = (-\infty,\, t_{\alpha/2}) \cup (t_{1-\alpha/2},\,+\infty);
пи-величина: p(T) = \min \left\{ 2F(T),\; 2(1-F(T)) \right\}.

Ошибки первого и второго рода

  • Ошибка первого рода или «ложная тревога» (англ. type I error, \alpha error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
\alpha = \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}.
  • Ошибка второго рода или «пропуск цели» (англ. type II error, \beta error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
\beta(H_1) = \mathbb{P}\left\{ T\notin\Omega_\alpha | H_1 \right\}.
  Верная гипотеза
 H_0   H_1 
Результат
 применения 
критерия
 H_0  H_0 верно принята H_0 неверно принята 
(Ошибка второго рода)
 H_1  H_0 неверно отвергнута 
(Ошибка первого рода)
H_0 верно отвергнута

Свойства статистических критериев

Мощность критерия:
1 - \beta(H) = \mathbb{P}\left\{ T\in\Omega_\alpha | H \right\} — вероятность отклонить гипотезу H_0, если на самом деле верна альтернативная гипотеза H.
Мощность критерия является числовой функцией от альтернативной гипотезы H.

Несмещённый критерий:
1-\beta(H) \geq \alpha
для всех альтернатив H
или, что то же самое,
\mathbb{P}\left\{ T\in\Omega_\alpha | H \right\} \geq \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}
для всех альтернатив H.

Состоятельный критерий:
\beta(H) \to 0 при m\to\infty для всех альтернатив H.

Равномерно более мощный критерий.
Говорят, что критерий с мощностью 1-\beta(H) является равномерно более мощным, чем критерий с мощностью 1-\beta'(H), если выполняются два условия:

  1. \beta(H_0) = \beta'(H_0);
  2. \beta(H_1) \leq \beta'(H_1) для всех рассматриваемых альтернатив H_1\neq H_0, причём хотя бы для одной альтернативы неравенство строгое.

Типы статистических гипотез

  • Простая гипотеза однозначно определяет функцию распределения на множестве X. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
  • Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на X. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.

Типы статистических критериев

В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.

Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.

  • Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Если выборка действительно удовлетворяет дополнительным предположениям, то параметрические критерии дают более точные результаты. Однако если выборка им не удовлетворяет, то вероятность ошибок (как I, так и II рода) может резко возрасти. Прежде чем применять такие критерии, необходимо убедиться, что выборка удовлетворяет дополнительным предположениям. Гипотезы о виде распределения проверяются с помощью критериев согласия.
  • Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.

Критерии согласия

Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.

  • Критерий Колмогорова-Смирнова
  • Критерий хи-квадрат (Пирсона)
  • Критерий омега-квадрат (фон Мизеса)

Критерии сдвига

Специальный случай двухвыборочных критериев согласия.
Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.

  • Критерий Стьюдента
  • Критерий Уилкоксона-Манна-Уитни

Критерии нормальности

Критерии нормальности — это выделенный частный случай критериев согласия.
Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел.
Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии.
Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические.
В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.

  • Критерий Шапиро-Уилка
  • Критерий асимметрии и эксцесса

Критерии однородности

Критерии однородности предназначены для проверки нулевой гипотезы о том, что
две выборки (или несколько) взяты из одного распределения,
либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.

Критерии симметричности

Критерии симметричности позволяют проверить симметричность распределения.

  • Одновыборочный критерий Уилкоксона и его модификации: критерий Антилла-Кёрстинга-Цуккини, критерий Бхаттачария-Гаствирса-Райта
  • Критерий знаков
  • Коэффициент асимметрии

Критерии тренда, стационарности и случайности

Критерии тренда и случайности предназначены для проверки нулевой гипотезы об
отсутствии зависимости между выборочными данными и номером наблюдения в выборке.
Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.

Критерии выбросов

Критерии дисперсионного анализа

Критерии корреляционного анализа

Критерии регрессионного анализа

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.

Ссылки

  • Statistical hypothesis testing — статья в англоязычной Википедии.

При работе со статистическим отчетом, научной статьей или диссертацией Вы постоянно сталкиваетесь таким термином, как уровень значимости или альфа (ошибка первого рода), чаще всего этот уровень задается относительно 5% или вероятности р=о,05. Решение о достоверности различий или «статистически значимых различиях» принимается относительно этого порогового значения. В данной статье мы предлагаем читателю разобраться в том, почему так важен этот уровень и что он значит в практическом смысле.

Определение (словарь Дж. М. Ласта):

ОШИБКА ТИПА I (ERROR TYPE I; син. alpha-error — ошибка альфа)

ошибочное отклонение нулевой гипотезы, т.е. утверждение о том, что различия существуют, тогда как их нет.

Немного о смысле уровня значимости и достовернности различий

Для понимания темы статистических ошибок мы перейдем к простейшей матрице соотношения статистики  (что она нам говорит по результатам статистических тестов) и реальности. Так вот, предположим, что статистика нам говорит о существовании связей, о существовании различий. В реальности же они также существуют, тогда мы считаем этот результат правильным положительным или truth positive (ТР). Например, статистика нам говорит об отсутствии связей, об отсутствии различий, а в реальности же они действительно существуют. Такая ситуация называется ложноотрицательной или false-negative (FN). Соответственно существуют ситуации, когда статистика нам говорит о существовании каких-то определенных взаимосвязей или о существовании различий, которые в реальности не существуют. Тогда это называется  ложноположительной или false-positive (FP). И последний случай касается отсутствия по данным статистических тестов того, чего в действительности не существует, различий в действительности нет. И эта ситуация именуется как truth negative (TN) или ложноотрицательный результат.

Рисунок 1. Матрица соотношения реальность-результаты статистического теста. TN (true negative) — верноотрицательный, FN (false negative) — ложноотрицательный, FP (false positive) — ложноположительный, TP (true positive) — верно позитивный.

Так вот, как видно из этой матрицы, у нас существуют 2 ситуации, в которых мы можем ошибаться: это false-positive и truth negative. Это как раз два типа ошибок, о которых я говорил в начале этого блока: о ложноотрицательной ошибке и ложноположительной. Что на самом деле это значит?

Что в какой-то ситуации мы можем пересмотреть, а в какой-то – недосмотреть.

Пересмотреть, то есть найти то, чего в действительности нет, это является false-positive – это ошибка первого рода.

Или недосмотреть, то есть упустить то, что в действительности существует в реальности, но по данным статистических тестов мы чего-то не находим – это ложноотрицательный результат или ошибка второго рода.

Давайте нанесем те термины, которые, возможно, вы уже слышали – «уровень достоверности», «достоверные различия». Что это за слово такое «достоверность»? Оно относится как раз к ошибке первого рода и обозначается буквой α. Вы наверняка знаете обозначение уровня в р=0,05. Уровень достоверности в 0,05 как раз является критическим значением для результатов большинства статистических тестов ( 5 %). Мы делаем вывод относительно этих 5 %. Что в практическом смысле это значит? Что в 95 % мы находим различия, которые действительно существуют, и в 5 % даем себе возможность переобнаружить то, чего в действительности не существует в реальности.

Что касается ошибки второго рода, то здесь это уже не 5 %. И мы задаем либо 20, либо 10 %, что-то в этом диапазоне, это ошибка в 0,2; в 0,1. И как раз мы подходим к следующему чрезвычайно важному статистическому понятию как «мощность исследования». Мощность исследования это: (1 – β), где β это ошибка второго рода. Если стандартный уровень ошибки это 0,2 и 0,1, то мы получаем, что мощность исследования в норме составляет 0,8 или 0,9 (чаще, конечно, 0,8).

NB! по уровню значимости

Уровень значимости, то есть ошибки первого рода составляет чаще всего относительно уровня в 5 %, это уровень той ошибки, при которой мы даем возможность себе «перенайти» то, что в действительности не существует. В ошибке второго рода мы даем себе определенный люфт до 20 % не обнаружить того, что в действительности существует, то есть когда статистические тесты нам скажут, что чего-то нет, а в реальности эти различия существуют.

Автор: Кирилл Мильчаков

Статистический критерий – это инструмент, который используется для проверки гипотез в статистике, позволяя определить, является ли какой-либо эффект статистически значимым или случайным.

О чем статья

Введение

В теории вероятности статистический критерий является одним из основных инструментов для проверки гипотез и принятия статистических решений. Он позволяет оценить, насколько вероятно наблюдаемые данные соответствуют предполагаемой гипотезе или отличаются от нее. В данном плане мы рассмотрим определение статистического критерия, примеры его применения, основные свойства, процедуру проверки гипотезы, ошибки первого и второго рода, выбор уровня значимости и интерпретацию результатов. Приступим к изучению этой важной темы!

Нужна помощь в написании работы?

Мы – биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

Заказать работу

Определение статистического критерия

Статистический критерий – это математическая функция, которая используется для принятия решений о гипотезах на основе наблюдаемых данных. Он позволяет оценить, насколько вероятно получение определенных результатов при условии, что нулевая гипотеза верна.

Статистический критерий состоит из двух частей: нулевой гипотезы и альтернативной гипотезы. Нулевая гипотеза предполагает, что никаких значимых различий или эффектов нет, а альтернативная гипотеза предполагает наличие различий или эффектов.

Для принятия решения о гипотезе используется статистическая мера, называемая p-значением. P-значение представляет собой вероятность получения наблюдаемых данных или более экстремальных результатов при условии, что нулевая гипотеза верна. Если p-значение меньше выбранного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной гипотезы.

Статистические критерии могут быть различными в зависимости от типа данных и задачи, которую необходимо решить. Некоторые из наиболее распространенных статистических критериев включают t-критерий Стьюдента, критерий хи-квадрат, критерий Фишера и др.

Примеры статистических критериев

Статистические критерии используются для проверки гипотез и принятия решений на основе данных. Вот несколько примеров статистических критериев:

T-критерий Стьюдента

Т-критерий Стьюдента используется для сравнения средних значений двух независимых выборок. Он позволяет определить, есть ли статистически значимая разница между средними значениями двух групп.

Критерий хи-квадрат

Критерий хи-квадрат используется для проверки независимости между двумя категориальными переменными. Он позволяет определить, есть ли статистически значимая связь между этими переменными.

Критерий Фишера

Критерий Фишера используется для сравнения дисперсий двух выборок. Он позволяет определить, есть ли статистически значимая разница в дисперсиях между двумя группами.

Критерий Смирнова-Колмогорова

Критерий Смирнова-Колмогорова используется для проверки соответствия эмпирической функции распределения теоретической функции распределения. Он позволяет определить, насколько хорошо выборка соответствует предполагаемому распределению.

Критерий Манна-Уитни

Критерий Манна-Уитни используется для сравнения средних значений двух независимых выборок, когда данные не имеют нормального распределения. Он позволяет определить, есть ли статистически значимая разница между средними значениями двух групп.

Это лишь некоторые примеры статистических критериев, которые могут быть использованы в различных ситуациях. Выбор конкретного критерия зависит от типа данных и вопроса, который требуется исследовать.

Свойства статистического критерия

Корректность

Статистический критерий должен быть построен таким образом, чтобы вероятность ошибки была минимальной. Это означает, что критерий должен правильно определять, отвергается ли нулевая гипотеза или нет.

Консистентность

Статистический критерий должен быть консистентным, то есть при увеличении размера выборки должна увеличиваться вероятность правильного отвержения нулевой гипотезы, если она действительно неверна.

Независимость от параметризации

Статистический критерий должен быть независимым от параметризации, то есть результаты теста не должны зависеть от способа представления данных или выбора параметров.

Робастность

Статистический критерий должен быть робастным, то есть он должен быть устойчивым к нарушениям предположений о распределении данных. Это означает, что критерий должен давать адекватные результаты даже при наличии выбросов или отклонений от предполагаемого распределения.

Эффективность

Статистический критерий должен быть эффективным, то есть он должен иметь высокую мощность, то есть способность обнаружить наличие статистически значимой разницы, если она действительно существует.

Интерпретируемость

Статистический критерий должен быть легко интерпретируемым, чтобы результаты теста были понятны и могли быть объяснены студентам или другим заинтересованным лицам.

Эти свойства помогают обеспечить надежность и точность статистического критерия при его использовании для проверки гипотез и анализа данных.

Процедура проверки гипотезы с использованием статистического критерия

Процедура проверки гипотезы с использованием статистического критерия включает несколько шагов:

Шаг 1: Формулировка нулевой и альтернативной гипотез

На этом шаге необходимо ясно сформулировать нулевую и альтернативную гипотезы. Нулевая гипотеза (H0) предполагает, что никаких статистически значимых различий или эффектов нет, альтернативная гипотеза (H1) предполагает наличие статистически значимых различий или эффектов.

Шаг 2: Выбор уровня значимости

На этом шаге необходимо выбрать уровень значимости (α), который определяет вероятность ошибки первого рода. Обычно выбирают уровень значимости 0.05 или 0.01, что означает, что есть 5% или 1% вероятность совершить ошибку первого рода.

Шаг 3: Выбор статистического критерия

На этом шаге необходимо выбрать подходящий статистический критерий для проверки гипотезы. Выбор критерия зависит от типа данных и вопроса, который требуется исследовать. Например, для сравнения средних значений двух групп можно использовать t-критерий Стьюдента.

Шаг 4: Вычисление статистики критерия

На этом шаге необходимо вычислить значение статистики критерия на основе имеющихся данных. Значение статистики критерия будет использоваться для принятия решения о принятии или отвержении нулевой гипотезы.

Шаг 5: Определение критической области

На этом шаге необходимо определить критическую область, которая определяет значения статистики критерия, при которых нулевая гипотеза будет отвергнута. Критическая область определяется на основе выбранного уровня значимости и распределения статистики критерия.

Шаг 6: Принятие решения

На этом шаге необходимо сравнить значение статистики критерия с критической областью. Если значение статистики критерия попадает в критическую область, то нулевая гипотеза отвергается в пользу альтернативной гипотезы. Если значение статистики критерия не попадает в критическую область, то нулевая гипотеза не отвергается.

Шаг 7: Интерпретация результатов

На этом шаге необходимо интерпретировать результаты проверки гипотезы. Если нулевая гипотеза отвергнута, то можно сделать вывод о наличии статистически значимых различий или эффектов. Если нулевая гипотеза не отвергнута, то можно сделать вывод о отсутствии статистически значимых различий или эффектов.

Это основные шаги процедуры проверки гипотезы с использованием статистического критерия. Важно следовать этим шагам, чтобы получить надежные и точные результаты.

Ошибки первого и второго рода при использовании статистического критерия

При использовании статистического критерия для проверки гипотезы могут возникать два типа ошибок: ошибки первого и второго рода.

Ошибки первого рода

Ошибки первого рода происходят, когда нулевая гипотеза отвергается, хотя она на самом деле верна. Вероятность совершить ошибку первого рода обозначается как α (уровень значимости). Это вероятность отвергнуть нулевую гипотезу, когда она верна.

Ошибки первого рода являются ложными положительными результатами. Они могут возникать из-за случайных флуктуаций данных или недостаточного размера выборки. Чем ниже уровень значимости α, тем меньше вероятность совершить ошибку первого рода.

Ошибки второго рода

Ошибки второго рода происходят, когда нулевая гипотеза принимается, хотя она на самом деле неверна. Вероятность совершить ошибку второго рода обозначается как β. Это вероятность принять нулевую гипотезу, когда она неверна.

Ошибки второго рода являются ложными отрицательными результатами. Они могут возникать, когда эффект или различие между группами существует, но не обнаруживается из-за недостаточной мощности статистического критерия или недостаточного размера выборки. Чем выше мощность статистического критерия, тем меньше вероятность совершить ошибку второго рода.

Ошибки первого и второго рода являются неприятными, но неизбежными аспектами статистического анализа. При выборе уровня значимости α и расчете мощности статистического критерия необходимо найти баланс между этими двумя типами ошибок, чтобы получить надежные и точные результаты.

Выбор уровня значимости статистического критерия

Выбор уровня значимости является важным шагом при проведении статистического анализа и проверке гипотез. Уровень значимости (обозначается как α) определяет вероятность совершить ошибку первого рода – отвергнуть верную нулевую гипотезу. Ошибку первого рода можно сравнить с ложным обвинением, когда невиновного человека признают виновным.

Выбор уровня значимости зависит от конкретной задачи и контекста исследования. Обычно уровень значимости выбирается из предопределенного набора значений, таких как 0.05, 0.01 или 0.001. Чем меньше выбранный уровень значимости, тем более строгие требования предъявляются к доказательствам для отвержения нулевой гипотезы.

При выборе уровня значимости необходимо учитывать следующие факторы:

Важность результата

Если результат исследования имеет большую важность и может иметь серьезные последствия, то рекомендуется выбрать более низкий уровень значимости. Например, при исследовании нового лекарства, где от его эффективности зависит здоровье и жизнь людей, целесообразно выбрать уровень значимости 0.01 или даже 0.001.

Размер выборки

Размер выборки также влияет на выбор уровня значимости. При большом размере выборки даже небольшие различия между выборочными средними или долей могут быть статистически значимыми. В таких случаях можно выбрать более низкий уровень значимости, чтобы уменьшить вероятность ошибки первого рода.

Предыдущие исследования

Если в предыдущих исследованиях были получены сходные результаты, то можно ориентироваться на выбранный уровень значимости в этих исследованиях. Это поможет сделать сравнение результатов и обеспечить согласованность в интерпретации.

Практическая значимость

Практическая значимость результатов также может влиять на выбор уровня значимости. Если различия между группами или эффект от вмешательства являются незначительными с практической точки зрения, то нет необходимости выбирать очень низкий уровень значимости.

В целом, выбор уровня значимости является компромиссом между риском совершить ошибку первого рода и требованиями к доказательствам. Важно внимательно оценить контекст исследования, учитывать предыдущие исследования и принять взвешенное решение при выборе уровня значимости.

Интерпретация результатов статистического критерия

После проведения статистического теста и получения результатов, необходимо проанализировать и интерпретировать эти результаты. Интерпретация результатов статистического критерия включает в себя следующие шаги:

Формулировка нулевой и альтернативной гипотез

Первым шагом является формулировка нулевой и альтернативной гипотез. Нулевая гипотеза (H0) предполагает отсутствие различий или эффекта, а альтернативная гипотеза (H1) предполагает наличие различий или эффекта.

Оценка статистической значимости

Далее необходимо оценить статистическую значимость полученных результатов. Для этого используется значение p-уровня значимости, которое показывает вероятность получить такие или более экстремальные результаты при условии, что нулевая гипотеза верна. Если значение p-уровня значимости меньше выбранного уровня значимости, то результаты считаются статистически значимыми.

Принятие или отвержение нулевой гипотезы

На основе оценки статистической значимости можно принять или отвергнуть нулевую гипотезу. Если значение p-уровня значимости меньше выбранного уровня значимости, то нулевая гипотеза отвергается в пользу альтернативной гипотезы. Если значение p-уровня значимости больше выбранного уровня значимости, то нулевая гипотеза не отвергается.

Интерпретация результатов

Интерпретация результатов статистического критерия зависит от конкретной задачи и контекста исследования. Если нулевая гипотеза отвергается, то это может указывать на наличие различий или эффекта в данных. Если нулевая гипотеза не отвергается, то это может указывать на отсутствие различий или эффекта в данных.

Важно помнить, что статистическая значимость не всегда означает практическую значимость. Даже если результаты статистически значимы, необходимо также оценить размер эффекта и его практическую значимость для конкретной задачи или области исследования.

Таблица сравнения статистических критериев

Критерий Определение Примеры Свойства Процедура проверки гипотезы Ошибки первого и второго рода Выбор уровня значимости Интерпретация результатов
Критерий Хи-квадрат Статистический критерий, используемый для проверки независимости двух категориальных переменных Тест Пирсона, тест Линдли, тест МакНемара Асимптотическая нормальность, состоятельность, эффективность Сравнение наблюдаемой частоты с ожидаемой частотой Ошибка первого рода – отвергнуть верную нулевую гипотезу, ошибка второго рода – принять неверную нулевую гипотезу Обычно выбирается уровень значимости 0.05 или 0.01 Если p-значение меньше уровня значимости, то отвергаем нулевую гипотезу
Критерий Стьюдента Статистический критерий, используемый для проверки различий между средними значениями двух выборок Одновыборочный t-тест, двухвыборочный t-тест, связанный t-тест Асимптотическая нормальность, состоятельность, эффективность Сравнение средних значений выборок Ошибка первого рода – отвергнуть верную нулевую гипотезу, ошибка второго рода – принять неверную нулевую гипотезу Обычно выбирается уровень значимости 0.05 или 0.01 Если p-значение меньше уровня значимости, то отвергаем нулевую гипотезу
Критерий Фишера Статистический критерий, используемый для проверки различий между дисперсиями двух выборок Дисперсионный анализ (ANOVA) Асимптотическая нормальность, состоятельность, эффективность Сравнение дисперсий выборок Ошибка первого рода – отвергнуть верную нулевую гипотезу, ошибка второго рода – принять неверную нулевую гипотезу Обычно выбирается уровень значимости 0.05 или 0.01 Если p-значение меньше уровня значимости, то отвергаем нулевую гипотезу

Заключение

Статистический критерий – это инструмент, который позволяет проверить гипотезу о параметрах или распределении случайной величины на основе наблюдаемых данных. Он позволяет принять или отвергнуть гипотезу с определенной степенью уверенности.

Важно помнить, что статистический критерий не дает абсолютных и окончательных ответов, а лишь предоставляет вероятностную оценку. При использовании статистического критерия необходимо учитывать возможность совершения ошибок первого и второго рода, а также выбирать уровень значимости в соответствии с требованиями исследования.

Использование статистических критериев является важным инструментом в анализе данных и принятии решений на основе статистических выводов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *