что значит проверить гипотезу
BYYD. Блог
Проверка гипотез: что это такое и как сделать тест для вашей маркетинговой кампании?
При попытке оптимизировать свою стратегию, вы можете столкнуться с таким понятием, как проверка гипотез. Этот термин звучит научно и может показаться сложным, но действительно может помочь в улучшении маркетинга компании и получения большого количества конверсий. Наиболее хорошо проверка гипотез работает с B2B-компаниями.
Что такое проверка гипотез?
Если говорить проще, то это процесс наблюдения и формирования вопросов на основе собранной информации, и попытки ответить на него с помощью научных методик.
Прелесть этого тестирования в том, что оно проводится постепенно, есть время на обдумывание, а еще каждый этап фиксируется в записи. И хотя проверка гипотез — не новое явление, сейчас о нем немного забыли. Поэтому, если вы будете использовать методику в своей стратегии, можете рассчитывать на хорошее конкурентное преимущество. Итак, как же проводить тестирование? Разберемся, но сначала рассмотрим методологию.
Что такое гипотеза?
Это вопрос, основанный на конкретном наблюдении, которое вам нужно доказать. Чтобы вопрос стал гипотезой, он должен быть непременно доказуем — это основное условие. Например, вы можете доказать, что изменение заголовка в рекламном объявлении увеличит конверсию на 20%, но не сможете проверить вопрос «Поможет ли изменение заголовка увеличить конверсию?». Другими словами, гипотеза должна быть конкретной, а не расплывчатой.
Вот отличный пример.
Допустим, у вас есть десять постов в блоге. Два очень успешны. Они получают массу просмотров и шеров в социальных сетях. Вы заметили, что в успешных статьях больше изображений и более короткие абзацы, чем в других, менее успешных публикациях.
Тогда ваша гипотеза может быть следующей: «Будут ли другие статьи с большими изображениями и лучшим форматированием получать такое же внимание?»
Затем вы можете запустить тесты, чтобы оценить точность вашей гипотезы. Это и есть проверка гипотезы.
Почему A / B-тестирование и многовариантное тестирование тоже классифицируется как проверка гипотез
Такие популярные методы, как A / B-тесты и многовариантное тестирование, считаются проверкой гипотез.
Например, если вы запускаете рекламу для ретаргетинга, можете спросить, подходит ли ваше изображение, а также демографические настройки. Затем запустить A / B и многовариантные тесты, чтобы увидеть, есть ли увеличение трафика и продаж.
Нулевая гипотеза и альтернативная гипотеза
Это термин из логической статистики, из которой также вытекает проверка гипотез. Нулевая гипотеза — утверждение, которое относится к гипотезе, которую вы пытаетесь доказать.
Например, если вы увеличиваете количество изображений в статьях блога с целью повышения количества просмотров, нулевая гипотеза — то, что не произойдет никаких изменений.
Это не тот результат, на который вы надеетесь, но он дает вам представление о том, что вы пытаетесь опровергнуть.
Как использовать проверку гипотез правильно
Шаг 1: Решите, что тестировать
Выберете элементы, которые хотите улучшить. Как только у вас появится «испытуемый», считайте, что эксперимент начался.
Шаг 2: Определите свою гипотезу
В этом суть проверки гипотез. Вопрос, который вы зададите, чтобы затем попытаться его доказать.
Если реклама не конвертируется, вы можете спросить, достаточно ли убедителен креатив. Если ваши электронные письма не открываются, вы можете задаться вопросом, есть ли проблема в шаблоне или, наоборот, в его отсутствии.
Вопросы, которые вы зададите, станут основой для экспериментов.
Шаг 3: Определите ваши переменные
Используете ли вы A / B или многовариантное тестирование, или какой-либо другой способ тестирования гипотез, не важно. Выясните, какие изменения вы хотите внести, а затем начните тесты.
Шаг 4: Проверьте свои гипотезы
С вашей первоначальной гипотезой, нулевой гипотезой и альтернативной гипотезой, которую вы только что получили, начните процесс тестирования.
Шаг 5: Рассчитайте свои результаты, проанализируйте и действуйте
Дайте каждому тесту время, чтобы сгенерировать адекватные данные. Не спешите. Вносить изменения в зависимости от прихотей или эмоций — совсем не лучшее решение.
Вместо этого следуйте фактам. Если ваши гипотезы действительно подтвердятся, вы получите доказательство того, что ваши изменения работают
Если нулевые или альтернативные гипотезы доказаны, найдите другие переменные.
После того, как вы получили результаты тестов по рекламе, вашей посадочной странице и готовы к запуску рекламной кампании, запускайте ее. Например, через программатик платформу. Зарегистрируйтесь прямо сейчас.
Мир статистических гипотез
В современном мире мы обладаем все большим и большим объемом данных о событиях, происходящих вокруг. Зачастую у нас появляются вопросы, на которые хотелось бы быстро ответить на основе имеющейся информации, для этого как нельзя лучше подходит процесс, связанный с проверкой статистических гипотез. Однако, многие считают, что это занятие подразумевает под собой большое число вычислений и в принципе довольно сложно для понимания. На самом деле, алгоритм проверки гипотез достаточно прост, а для осуществления расчетов с каждым годом появляется все больше и больше готовых инструментальных средств, не требующих от человека глубоких познаний в области. Далее я попытаюсь показать, что мало того, что процесс проверки гипотез может быть полезным, так и осуществляется достаточно быстро и без серьезных усилий.
Статистические гипотезы и области их применения
Проверка статистических гипотез является важнейшим классом задач математической статистики. С помощью данного инструмента можно подтвердить или отвергнуть предположение о свойствах случайной величины путем применения методов статистического анализа для элементов выборки. Если в предыдущем предложении какие-либо термины являются не совсем понятными, ниже можно найти пояснение на простом языке.
Для проверки статистических гипотез зачастую применяются статистические тесты, о которых будет рассказано далее.
Алгоритм проверки статистической гипотезы
В обобщенном виде алгоритм выглядит таким образом:
Формулировка основной (H0) и альтернативной (H1) гипотез
Выбор уровня значимости
Выбор статистического критерия
Определения правила принятия решения
Итоговое принятие решения на основе исходной выборки данных
Данные шаги являются унифицированными и схему можно использовать почти во всех случаях. Далее подробнее рассмотрим пример работы данного алгоритма на конкретных данных.
Пример проверки статистической гипотезы
Итак, как вы, наверное, догадались по вышеприведенным примерам, будем проверять гипотезу о том, что имеется существенное различие между числом созданных европейских AI-стартапов в 2019-м и 2020-м годах. Пример достаточно простой, чтобы было проще разобраться в ходе работы алгоритма.
Проверка гипотезы о законе распределения
Для данных 2019-го года проверим нормальность распределения.
H0: случайная величина распределена нормально
H1: случайная величина не распределена нормально
Пусть уровень значимости alpha = 0.05 (как и в 95-ти процентах статистических тестов). Определение уровня значимости достойно отдельного поста, так что не будем заострять на нем внимание.
Будет использован критерий Шапиро-Уилка.
,
,
,
;
Можно сравнить статистику W с критическим значением Wкрит. Критическое значение чаще всего приведено в готовых таблицах (по строкам/столбцам там отмечен объем выборки и уровень значимости, а на пересечении как раз-таки и лежит Wкрит.). Если W>Wкрит., то не отвергаем H0 и наоборот. Но это не очень удобно, поэтому чаще используется второй способ.
Разнообразие статистических критериев
Как мы увидели на примере, важным шагом в проверке статистической гипотезы является выбор критерия. В примере выше я использовала лишь два статистических критерия, но по факту их гораздо больше, так сказать, на все случаи жизни. Данные критерии важно знать и четко нужно осознавать, когда и какой можно применить. Многие из них направлены на сравнение центров распределений случайных величин, например, сравнение средних, медиан, равенство параметра распределения какому-либо числу и т. д. В основном они делятся на параметрические (знаем закон распределения случайной величины) и непараметрические.
Для вашего удобства внизу (рис. 3) приведена таблица с основными, с моей точки зрения, критериями сравнения центров распределения и их классификацией. Надеюсь, она будет вам полезна, ее можно дополнять и расширять по вашему желанию.
Интуитивное объяснение проверки гипотез и p-значение
Привет, Хабр! Представляю вашему вниманию перевод статьи «An intuitive explanation of Hypothesis Testing and P-Values» автора Joos Korstanje.
Несколько лет назад я делал свою первую фриланс-работу по статистике для компании по доставке фруктов и овощей. Двадцать четыре часа в день поступающие продукты от фермеров до того, как были отправлены в супермаркеты, проходили через отдел по контролю за качеством. Выбор продуктов осуществлялся случайно работниками данного отдела.
В годовом отчёте они заметили, что качество в этом году ниже, чем качество в прошлом: разница составила примерно половину пункта по шкале от 1 до 10.
Потом пригласили меня. Я должен был ответить на вопрос:
Являются ли эти 0,5 пунктов существенной разницей?
Если вы не знаете статистику, то этот вопрос может показаться вам странным. Но не беспокойтесь: цель этой статьи показать вам как можно ответить на этот вопрос, используя проверку гипотез, также называемое статистическим выводом.
Игра в числа: вклад одного яблока
Представьте себе, что вы проверяете яблоко на предмет хорошее оно или плохое, используя случайную выборку яблок из очень большой коробки с яблоками. В изображении ниже мы видим реальный эффект размера выборки на измерения: эффект одного яблока очень существенен для маленьких выборок и становится менее и менее значимым, чем больше размер выборки.
Вклад одного яблока зависит от размера выборки.
Понимание влияния размера выборки — это первый базис для понимания проверки гипотез. Мы можем начать утверждать, что 0.5 на 2 яблоках будет как разница в 1 яблоко, очень маленькая. Но на 100 яблоках, 0.5 будет представлять собой разницу в 50 яблок: очень большая разница!
На малых выборках 0.5 пункта это небольшая разница, но на больших выборках 0.5 это разница большая.
Насколько большая должна быть выборка: проверка гипотез и значимость как ответ
Есть несколько способов, чтобы ответить на данный вопрос, но в этой статье я собираюсь погрузиться в статистический вывод или проверку гипотез.
Проверка гипотез — это семейство статистических методов используемых, чтобы понять, как выборка наблюдаемых объектов может использоваться, чтобы принять или отвергнуть заранее поставленную гипотезу. Проверка гипотез используется для решения многих задач, в основном в научных исследованиях и как ключевой метод в онлайн маркетинге (А\Б тестирование).
Математики разработали проверку гипотез таким образом, что существует определённая процедура для поиска истины.
Проверка гипотез позволяет только проверить гипотезы, но не разработать их.
Из коробки, в которой 100 яблок (назовём её генеральной совокупностью), мы возьмём выборку из 8 яблок. В этом году из 8 яблок 5 оказались гнилыми (62%), а в выборке прошлого года из 8 яблок было только 4 гнилых (50%). Мы хотим использовать проверку гипотез, чтобы определить стал ли процент гнилых яблок в этом году больше, чем в прошлом.
Проверка гипотез — это математическая альтернатива для измерения генеральной совокупности. Благодаря этим вычислениям мы можем обобщить измерения небольшой выборки на большую генеральную совокупность. Так мы проделываем меньше работы.
Случайно набранная выборка имеет такой же процент гнилых яблок, как и генеральная совокупность, при условии, что набранная выборка достаточно велика.
Математики придумали способ, как обобщить вывод, основанный на выборке, на генеральную совокупность.
Этот способ начинается с формулировки чёткой исследовательской гипотезы. К сожалению, математика работает только в том случае, если у нас уже есть представление о том, что мы хотим проверить.
Основная гипотеза для нашего примера:
Процент гнилых яблок в генеральной совокупности в этом году, больше чем в прошлом.
Фактическая проверка гипотезы
Математика проверки гипотез образует баланс между результатом измерений выборки с числом наблюдений. Результатом будет p-значение.
Эти вычисления проходят через использование распределений: почти для каждой воображаемой ситуации был выведен математический закон, который описывает ожидаемый результат.
Для вопросов вида «да/нет», таких как вопрос о наших гнилых яблоках (гнилые/не гнилые), применяется закон подбрасывания монетки. Это самый простой пример математического закона: 50% выпадения решки, 50% орла.
Также очень просто это может быть представлено, как стандартное математическое распределение, которое скажет нам о вероятности наблюдений. Для примера, 7 орлов выпало из 10 подбрасываний монетки. Это называется биноминальным распределением и может быть изображено так:
биноминальное распределение 10 подбрасываний монетки.
В этой статье я буду далек от тяжёлой математики, но важно знать, что мы можем использовать математические формулы для оценки того, является ли наблюдаемый процент далеким от ожидаемого процента.
В конце этой статьи я дам вам список часто используемых формул проверки гипотез для различных случаев и после объясню, как их использовать. Но сначала я объясню интерпретацию проверки гипотез.
Результат проверки гипотез: p-value
За проверкой гипотез есть математический баланс между наблюдаемыми значениями и размером выборки. В конце вычислений каждый существующий вариант тестирования гипотез выдаст стандартизированную оценку, которая позволит сравнить результат, даже когда математика не совсем одинакова.
P-value это стандартный способ, чтобы сформулировать результат проверки гипотез и использовать его в любых других тестах.
P-value это число между 0 и 1, которое говорит нам, если разница между нашим наблюдениями выборок, и наши гипотезы сильно различаются. Опорное значение – это 0.05.
Разница статистически значима, если p-value меньше 0.05.
И разница статистически не значима, если p-value больше 0.05.
Мы сделали 10 подбрасываний монетки.
Наша гипотеза: мы ожидаем 5 решек.
Наши наблюдения: мы получили 6 решек.
Вычисление p-value дало 0.518, что больше, чем 0.05.
Наш вывод: разница статистически не значима.
Наша интерпретация: результат соответствует гипотезе.
Мы сделали 10 подбрасываний монетки
Наша гипотеза: мы ожидаем 5 решек.
Наш результат: мы получили 10 решек.
Наше p-value — 0.0, что меньше чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.
Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 1 гнилых яблок.
Наше p-value — 1.0 что больше, чем 0.05.
Наше заключение: разница статистически не значима
Наша интерпретация: результат соответствует гипотезе.
Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 5 гнилых яблок.
Наше p-value — 0.0114 что меньше, чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.
Заключение
В этой статье я дал интуитивную интерпретацию общей структуры статистических погрешностей или проверки гипотез. Я надеюсь, что теперь вы лучше понимаете проверку гипотез, и чем она может быть вам полезна.
Я не уходил глубоко в математические доказательства и в специфичные детали. В таблице ниже приведен список самых частых проверок гипотез, которые я рекомендую для дальнейшего изучения.
Название теста | Альтернативная гипотезе |
Тест одной выборки | Значение пременной отлично от ожидаемого значения |
Тест двух выборок | Значение двух групп различно |
ANOVA | Значение больше чем двух групп различно |
Пропорциональная z проверка | Процент успеха переменной из двух возможных вариантов отлично от ожидаемого значения |
Двухпропарциаоная z-проверка | Процент успеха переменной с двумя исходами различно между двумя группами |
Список с альтернативными гипотезами для некоторых проверок гипотез.
Я надеюсь эта статья будет полезна для вас, и желаю вам удачи в дальнейших исследованиях проверки гипотез.
Проверка гипотез: что это такое и как сделать тест для вашей маркетинговой кампании?
Что такое проверка гипотез?
Если говорить проще, то это процесс наблюдения и формирования вопросов на основе собранной информации, и попытки ответить на него с помощью научных методик.
Прелесть этого тестированияв том, что оно проводится постепенно, есть время на обдумывание, а еще каждый этап фиксируется в записи. И хотя проверка гипотез — не новое явление, сейчас о нем немного забыли. Поэтому, если вы будете использовать методику в своей стратегии, можете рассчитывать на хорошее конкурентное преимущество. Итак, как же проводить тестирование? Разберемся, но сначала рассмотрим методологию.
Что такое гипотеза?
Это вопрос, основанный на конкретном наблюдении, которое вам нужно доказать. Чтобы вопрос стал гипотезой, он должен быть непременно доказуем — это основное условие. Например, вы можете доказать, что изменение заголовка в рекламном объявлении увеличит конверсию на 20%, но не сможете проверить вопрос «Поможет ли изменение заголовка увеличить конверсию?». Другими словами, гипотеза должна быть конкретной, а не расплывчатой.
Вот отличный пример.
Допустим, у вас есть десять постов в блоге. Два очень успешны. Они получают массу просмотров и шеров в социальных сетях. Вы заметили, что в успешных статьях больше изображений и более короткие абзацы, чем в других, менее успешных публикациях.
Тогда ваша гипотеза может быть следующей: «Будут ли другие статьи с большими изображениями и лучшим форматированием получать такое же внимание?»
Затем вы можете запустить тесты, чтобы оценить точность вашей гипотезы. Это и есть проверка гипотезы.
Почему A / B-тестирование и многовариантное тестирование тоже классифицируется как проверка гипотез
Такие популярные методы, как A / B-тестыи многовариантное тестирование, считаются проверкой гипотез.
Например, если вы запускаете рекламу для ретаргетинга, можете спросить, подходит ли ваше изображение, а также демографические настройки. Затем запустить A / B и многовариантные тесты, чтобы увидеть, есть ли увеличение трафика и продаж.
Нулевая гипотеза и альтернативная гипотеза
Это термин из логической статистики, из которой также вытекает проверка гипотез. Нулевая гипотеза — утверждение, которое относится к гипотезе, которую вы пытаетесь доказать.
Например, если вы увеличиваете количество изображений в статьях блога с целью повышения количества просмотров, нулевая гипотеза — то, что не произойдет никаких изменений.
Это не тот результат, на который вы надеетесь, но он дает вам представление о том, что вы пытаетесь опровергнуть.
Как использовать проверку гипотез правильно
Шаг 1: Решите, что тестировать
Выберете элементы, которые хотите улучшить. Как только у вас появится «испытуемый», считайте, что эксперимент начался.
Шаг 2: Определите свою гипотезу
В этом суть проверки гипотез. Вопрос, который вы зададите, чтобы затем попытаться его доказать.
Если реклама не конвертируется, вы можете спросить, достаточно ли убедителен креатив. Если ваши электронные письма не открываются, вы можете задаться вопросом, есть ли проблема в шаблоне или, наоборот, в его отсутствии.
Вопросы, которые вы зададите, станут основой для экспериментов.
Шаг 3: Определите ваши переменные
Используете ли вы A / B или многовариантное тестирование, или какой-либо другой способ тестирования гипотез, не важно. Выясните, какие изменения вы хотите внести, а затем начните тесты.
Шаг 4: Проверьте свои гипотезы
С вашей первоначальной гипотезой, нулевой гипотезой и альтернативной гипотезой, которую вы только что получили, начните процесс тестирования.
Шаг 5: Рассчитайте свои результаты, проанализируйте и действуйте
Дайте каждому тесту время, чтобы сгенерировать адекватные данные. Не спешите. Вносить изменения в зависимости от прихотей или эмоций — совсем не лучшее решение.
Вместо этого следуйте фактам. Если ваши гипотезы действительно подтвердятся, вы получите доказательство того, что ваши изменения работают
Если нулевые или альтернативные гипотезы доказаны, найдите другие переменные.
После того, как вы получили результаты тестов по рекламе, вашей посадочной странице и готовы к запуску рекламной кампании, запускайте ее. Например, через программатик платформу. Зарегистрируйтесь прямо сейчас.
Основы науки о данных — A/B тестирование
Если вы уже имели дело со статистикой, вы возможно задавались вопросом: «Разве A/B тестирование не тоже самое, что проверка статистических гипотез?». Так и есть! Поэтому давайте узнаем побольше об A/B тестировании, разобрав на простом примере принцип работы проверки статистических гипотез.
Представьте, что наш клиент — владелец очень успешного приложения для работы с личными финансами. Он обратился к нам со следующей проблемой:
Тони, новый дизайн нашего приложения должен помочь пользователям сэкономить больше денег. Но приводит ли он к этому на самом деле? Пожалуйста помоги нам определить это, чтобы мы могли принять решение о внедрении этого дизайна.
Наша цель — определить, экономят ли пользователи лучше благодаря новому дизайну приложения. Для начала, нам надо узнать, имеем ли мы необходимое нам количество данных, поэтому мы задаем вопрос: «Какие потенциально полезные данные вы уже собрали?»
Оказывается, наш клиент уже провел эксперимент и собрал некоторые данные:
Шесть месяцев назад, наш клиент выбрал 1000 новых пользователей и разделил их на две группы: 500 в контрольной группе и 500 в экспериментальной группе.
Через шесть месяцев, наш клиент фиксирует процент экономии всех 1000 пользователей. Процент экономии (дословно «норма сбережений») представляет собой процент, который конкретный пользователь экономит от расчетного чека за каждый месяц. Наш клиент узнает следующую информацию:
Результаты нашего эксперимента на гистограмме выглядят следующим образом:
Создается впечатление, что по окончании шести месяцев представители экспериментальной группы имели более высокий процент экономии, чем представители контрольной группы. Можем ли мы просто построить данную гистограмму, показать её клиенту и считать работу законченной?
Нет, потому что мы не можем быть уверены в том, что данный рост экономии был вызван новым дизайном. Возможно, нам просто не повезло при выборе пользователей для эксперимента, и все люди с желанием экономить больше попали в экспериментальную группу.
Для решения этой проблемы нам необходимо задать следующий вопрос:
Какова вероятность того, что данный результат мы получили только из-за случайного стечения обстоятельств?
Суть проверки статистических гипотез (и А/В тестирования) как раз и заключается в ответе на данный вопрос.
Давайте представим альтернативную ситуацию, в которой новый дизайн не помог пользователям экономить лучше. Даже в таком случае, несмотря на то что новый дизайн получился бесполезным, мы все еще можем наблюдать рост процента экономии при проведении нашего эксперимента.
Как такое могло произойти? Это может произойти из-за того, что мы используем выборку. Приведу пример: если я случайном образом выберу 100 людей из десяти тысячной толпы и вычислю их средний рост, результат составит, например, 170 см. Но проведя данный эксперимент еще несколько раз, результат будет 177 см, 168 см и так далее.
Так как мы вычисляем статистику используя выборки, а не всё целое, средние значения каждой выборки будут различаться.
Зная, что использование выборок приводит к вариациям, мы можем переформулировать предыдущий вопрос:
В случае если новый дизайн на самом деле никак не влияет на экономию пользователей, какова вероятность того, что мы обнаружим настолько же высокий рост экономии, как и при случайном стечении обстоятельств?
Формально говоря, мы формулируем нулевую гипотезу следующим образом: рост процента экономии контрольной группы равен росту процента экономии экспериментальной группы.
Теперь наша работа заключается в проверке данной нулевой гипотезы. Мы можем сделать это проведя мысленный эксперимент.
Представьте, что мы можем проводить наш эксперимент снова и снова. При этом, мы все еще рассматриваем ситуацию, в которой новый дизайн никак не влияет на экономию пользователей. Что мы будем наблюдать?
Для тех, кому интересно, вот как мы это представляем:
Для каждой группы генерируем 500 нормально распределенных случайных величин с такими же статистическими характеристиками, как и у контрольной группы (среднее значение = 12%, среднеквадратическое отклонение = 5%). Теперь у нас есть контрольная группа и экспериментальная группа (средние значения одинаковы, так как мы рассматриваем ситуацию, в которой новый дизайн не имеет никакого эффекта). Технически, правильнее было бы использовать распределение Пуассона, но мы используем нормальное распределение для простоты примера.
В итоге, мы получаем гистограмму, приведенную ниже. Данная гистограмма показывает, насколько сильно среднее значение процента экономии между группами различается из-за случайного стечения обстоятельств (обусловленное использованием выборки).
Красная вертикальная линия показывает тот результат, который получил наш клиент при проведении эксперимента (1%). Для нас важен процент количества значений справа от красной линии — он показывает вероятность того, что при проведении эксперимента мы получим разность, равную 1% или выше (мы используем односторонний критерий, потому что он легче для понимания).
В данном случае это значение очень маленькое — из 10 000 экспериментов только в 9 мы получили разность процентов экономии групп, равную 1% или выше.
Это означает, что результат, который наш клиент получил при проведении эксперимента, по случайному стечению обстоятельств может быть получен с вероятностью лишь 0.09%!
Данная вероятность, 0.09%, является нашим p-значением. «Каким значением? Хватит забрасывать меня какими-то случайными терминами!» — вы можете подумать. И правда, когда дело доходит до проверки статистических гипотез, приходится использовать много различных терминов, и, мы, пожалуй, оставим их разъяснение Википедии.
Наша задача, как и всегда, состоит в построении интуитивного понимания того, как работают эти инструменты статистики и для чего они пользуются, поэтому по возможности мы постараемся избегать использования терминологии в пользу простоты объяснении. Однако, p-значение является крайне необходимым термином, с которым вы еще не раз встретитесь в мире науки о данных, поэтому его мы должны обсудить. P-значение (в нашем случае 0.09%) представляет собой:
Вероятность получения, наблюдаемого нами результата, в случае если нулевая гипотеза правильна.
Соответственно, мы можем использовать p-значение для проверки справедливости нулевой гипотеза. Основываясь на определении, кажется, что мы хотим, чтобы это значение было минимальным, так как, чем меньше p-значение, тем менее вероятно то, что результат нашего эксперимента был случайным. Но на практике, мы введем уровень значимости для p-значения (называемый «альфа»), и, в случае если p-значение меньше альфа, мы отвергаем нулевую гипотезу и делаем вывод, что полученный результат и эффект реальны (статистически значимы).
Теперь давайте рассмотрим способ быстрого вычисления p-значения.
Время поговорить об одной из фундаментальных концепций статистики. Центральная предельная теорема утверждает, что при сложении независимых случайных величин, их сумма стремится к нормальному распределению по мере сложения всё большего количества величин. Центральная предельная теорема работает даже в случае, если случайные величины не имеют нормального распределения.
Другими словами, если мы вычислим средние значения набора выборок (подразумевая, что все наши наблюдения независимы друг от друга, как, например, друг от друга не зависят броски монетки), распределение всех этих выборок будет близко к нормальному.
Взгляните на гистограмму, которую мы построили ранее. Выглядит как нормальное распределение, не так ли? Мы можем проверить нормальность с помощью КК (квантиль-квантиль) графика, который сравнивает квантиль нашего распределения с другим квантилем (в нашем случае, с нормальным распределением). Если наше распределение нормальное, то КК график будет близок к красной линии, находящейся под углом в 45°. И именно так и получается, здорово!
Значит, когда мы проводили наш эксперимент снова и снова, это был пример работы центральной предельной теоремы!
Так почему же это так важно?
Помните, как мы проверяли нашу нулевую гипотезу, проводя 10 000 экспериментов? Звучит очень утомительно, не так ли? На практике, это и утомительно, и дорого. Но благодаря центральной предельной теореме мы можем это избежать!
Теперь мы знаем, что распределение наших повторяющихся экспериментов будет нормальным, и мы можем использовать это знание для определения того, как распределяться наши 10 000 экспериментов без их проведения!
Здорово! Теперь у нас есть всё, что нам требуется для проверки гипотезы. Давайте завершим работу для нашего клиента.
Среднеквадратическое отклонение равно 5% как для контрольной группы, так и для экспериментальной группы, поэтому наша выборочная дисперсия равна 0.0025. N — это количество наблюдений в каждой группе, поэтому N равно 500. Подставляем числа в формулу и получаем стандартную ошибку, равную 0.316%.
from scipy.stats import norm
P-значение (0.0016) меньше альфа (0.05), поэтому мы отвергаем нулевую гипотезу и говорим клиенту, что новый дизайн на самом деле помогает пользователям лучше экономить. Ура, победа!
Но обратите еще внимание на то, что p-значение, которое мы вычислили аналитически (0.0016), отличается от значения 0.0009, которое мы получили ранее. Связано это с тем, что наша симуляция была односторонней (односторонний тест более легок для понимания и визуализации). Мы можем удвоить данное значение для получения 0.0018, примерно равного настоящему 0.0016.
В реальной жизни A/B тестирование не настолько легко как в нашем выдуманном примере. Скорее всего, наш клиент не будет обладать готовыми данными, и нам придется самим искать нужные данные. Приведу несколько трудных моментов, с которыми вы можете встретиться при A/B тестировании:
Надеюсь, данная статья была для вас полезна!