Следующая тема:  САД. Проектная работа

Вернуться в раздел: Статистический анализ данных

Вернуться в оглавление: Я.Практикум

 

В теме:

1. Введение

2. Генеральная совокупность. Случайные и стратифицированные выборки

3. Оценка параметров генеральной совокупности по выборке

4. Выборочное распределение

5. Центральная предельная теорема, или Самое важное утверждение о выборочном среднем

6. Формулирование гипотез

7. Логика проверки гипотез. Односторонние и двусторонние гипотезы

8. P-value

9. Проверка двусторонней гипотезы в Python. T-тест

10. Проверка односторонних гипотез в Python

11. Гипотеза о равенстве средних двух генеральных совокупностей

12. Гипотеза о равенстве средних для зависимых (парных) выборок

13. Заключение

14. Проверочные задания. Проверка гипотез

 

Центральная предельная теорема, или Самое важное утверждение о выборочном среднем

Кратко:

  • Центральная предельная теорема утверждает, что распределение выборочных средних зависит от размера выборки, но не от распределения генеральной совокупности.
  • Выборочное распределение выборочного среднего имеет форму нормального распределения.
  • Центральная предельная теорема работает при увеличении количества наблюдений.
  • Стандартное отклонение выборочного распределения выборочного среднего стремится к стандартному отклонению генеральной совокупности, деленному на корень из размера выборки.
  • Стандартная ошибка выборочного среднего - SE - это стандартная ошибка выборочного среднего.
  • Выборочное распределение выборочного среднего не зависит от конкретной выборки, а построено для всех возможных выборок фиксированного размера.
  • Оценка стандартной ошибки по выборке - ESE - позволяет достаточно хорошо оценить форму выборочного распределения 
В конце прошлого урока вы выяснили, что распределение выборочных средних, посчитанных на всех возможных выборках фиксированного размера, зависит от размера выборки, но практически не зависит от распределения самой генеральной совокупности.
 
 
Правильный ответ
 

Формулирование гипотез

Кратко:

  • Выборка позволяет оценить параметры генеральной совокупности, но не является подтверждением гипотезы.
  • Гипотезы - предположения о данных, которые не могут быть подтверждены экспериментально.
  • Проверка гипотез включает формулировку нулевой гипотезы и альтернативной гипотезы.
  • Нулевая гипотеза фиксирует параметр генеральной совокупности, а альтернативная гипотеза предполагает возможное отклонение.
  • Если гипотеза не противоречит данным, то она не отвергается, а если вероятность получения таких данных низкая, то гипотеза отвергается.
  • Задача статистического теста - корректно сделать вывод о соответствии гипотезы данным.
  • Примеры гипотез: среднее генеральной совокупности равно определенному значению, среднее генеральной совокупности больше или меньше определенного значения
Вы уже знаете, что выборки позволяют оценить параметры генеральной совокупности. Оценками исследователи не ограничиваются. Иногда нужно ответить на вопрос о генеральной совокупности, — понять, соответствует ли наблюдаемая выборка нашему предположению о ней или скорее нет.
 
Предположения о данных называются гипотезами. Важно: подтвердить гипотезу на основе экспериментальных данных нельзя — это фундаментальное ограничение. Может показаться странным, однако это так. Всё, что мы можем сделать по итогам проверки, — это отвергнуть гипотезу или нет.
 
Иными словами, при условии, что гипотеза верна, данные могут лишь не противоречить ей или, наоборот, показывать очень маловероятные результаты. Но и в том, и в другом случае нет оснований утверждать, что выдвинутая гипотеза доказана.
 
 

P-value

Кратко:

  • Нулевая гипотеза отвергается, если наблюдаемое значение слишком далеко от предполагаемого значения в нулевой гипотезе.
  • Уровень значимости задает порог, начиная с какой вероятности наблюдаемое значение считается слишком далеким от предполагаемого.
  • P-value - вероятность при верной нулевой гипотезе получить наблюдаемое значение или более удаленное от предполагаемого.
  • Нулевая гипотеза отвергается, если p-value меньше выбранного уровня статистической значимости.
  • P-value не является вероятностью того, что нулевая гипотеза верна, а лишь оценивает необычность данных при верном предположении о значении параметра.
  • Тренировочный метод проверки гипотез позволяет самостоятельно менять формулировку гипотезы, проводить эксперименты и наблюдать за результатами работы метода

 

Вспомним логику проверки статистических гипотез, с которой вы познакомились в прошлом уроке:
  • Нулевая гипотеза отвергается в пользу альтернативной, если наблюдаемое на выборке значение оказывается слишком далеко от предполагаемого в нулевой гипотезе.
  • Уровень значимости задаёт порог: начиная с какой вероятности наблюдаемое значение считается слишком далёким от предполагаемого, то есть слишком маловероятным.
 
 

Проверка двусторонней гипотезы в Python. T-тест

Кратко:

  • Проверка гипотез в Python с использованием библиотеки SciPy.
  • Метод scipy.stats.ttest_1samp() для проверки двусторонней гипотезы.
  • Статистика разности и p-value для решения о принятии гипотезы.
  • p-value - вероятность получить наблюдаемый или более экстремальный результат.
  • Сравнение p-value с выбранным уровнем значимости для принятия решения.
  • t-тест для проверки гипотез с распределением Стьюдента.
  • Ограничения t-теста и возможные альтернативы.
  • Пример использования t-теста для проверки гипотезы о равенстве среднего генеральной совокупности определенному значению

 

В Python проверять гипотезы просто — в библиотеке SciPy для этого есть готовые методы.
 
Метод scipy.stats.ttest_1samp() возвращает два числа для выбранной нулевой гипотезы: статистику разности и вероятность получить наблюдаемое или более экстремальное значение статистики — p-value.
 
from scipy import stats as st
import pandas as pd

scooters = pd.Series([15, 31, 10, 21, 21, 32, 30, 25, 21,
28, 25, 32, 38, 18, 33, 24, 26, 40, 24, 37, 20, 36, 28, 38,
24, 35, 33, 21, 29, 26, 13, 25, 34, 38, 23, 37, 31, 28, 32,
24, 25, 13, 38, 34, 48, 19, 20, 22, 38, 28, 31, 18, 21, 24,
31, 21, 28, 29, 33, 40, 26, 33, 33,  6, 27, 24, 17, 28,  7,
33, 25, 25, 29, 19, 30, 29, 22, 15, 28, 36, 25, 36, 25, 29,
33, 19, 32, 32, 28, 26, 18, 48, 15, 27, 27, 27,  0, 28, 39,
27, 25, 39, 28, 22, 33, 30, 35, 19, 20, 18, 31, 44, 20, 18,
17, 28, 17, 44, 40, 33,])

optimal_value = 30 # введите ваш код тут

alpha = 0.05 # введите ваш код тут
# введите ваш код тут
results = st.ttest_1samp(scooters, optimal_value)

print('p-значение:', results.pvalue ) # введите ваш код тут

if results.pvalue < alpha :# введите ваш код тут
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')

Проверка односторонних гипотез в Python

Кратко:

  • Проверка односторонних гипотез в Python: метод scipy.stats.ttest_1samp() для правосторонней и левосторонней альтернативной гипотезы.
  • Важно понимать объект исследования и корректно формулировать гипотезы, учитывая варианты развития событий.
  • Для проведения одностороннего теста используйте alternative='greater' или alternative='less'.
  • P-value рассчитывается для одного хвоста распределения.
  • Пример использования метода: проверка гипотезы о том, что новый дизайн лендинга помог пользователям быстрее принимать решение о покупке.
  • Пример: проверка гипотезы о том, что внедрение практики осознанного подхода к бизнесу привело к увеличению дневной выручки интернет-проекта

 

Продолжим работать с одной из самых частых гипотез: равно ли истинное среднее генеральной совокупности заданному числу. В этом уроке вы используете методы Python и проверите эту гипотезу против односторонней альтернативной гипотезы.
 

Ещё раз об односторонних гипотезах

Когда альтернативная гипотеза двусторонняя, интервалы, где нулевая гипотеза отвергается, для уровня значимости в 5 % на графике выборочного среднего выглядят так:
 
На графике выборочного среднего критические интервалы находятся с двух сторон: справа и слева.
Как будет выглядеть график, когда важно изменение только в одну сторону? Разбивать пополам уровень значимости не придётся: интервал отвержения нулевой гипотезы будет только с одной стороны, а не с обеих.
 
 
p-значение: 1.3358596895543794e-06
Отвергаем нулевую гипотезу 
Похоже, дизайнер был прав!
 
 

Гипотеза о равенстве средних для зависимых (парных) выборок

Кратко:

  • Гипотеза о равенстве средних для зависимых выборок: H_0: μ_1 = μ_2, H_1: μ_1 ≠ μ_2.
  • Выборки в этом случае будут зависимыми, иначе - парными.
  • Метод scipy.stats.ttest_rel() для проверки гипотезы в Python.
  • Метод scipy.stats.ttest_ind() для проверки равенства средних двух генеральных совокупностей.
  • Метод scipy.stats.ttest_rel() для проверки равенства среднего значения генеральной совокупности до и после изменения.
  • Пример использования методов: проверка веса посылок до и после изменения способа расчета оплаты доставки.
  • Пример использования методов: проверка времени использования личного кабинета сайта до и после редизайна.
  • Пример использования методов: проверка количества патронов, покупаемых пользователями в онлайн-игре до и после изменения игровой логики
Мы обещали рассказать, как проверять гипотезу, если вы анализируете одну генеральную совокупность, с которой произошли некоторые изменения. В этом случае вы будете проверять, равны ли средние совокупности до и после этого изменения.
 
 
Чтобы пройти тест нужно правильно ответить на 6 вопросов из 10.
Время на прохождение: 20 минут

Следующая тема:  САД. Проектная работа

Вернуться в раздел: Статистический анализ данных

Вернуться в оглавление: Я.Практикум