Следующая тема: САД. Проверка гипотез

Вернуться в раздел: Статистический анализ данных

Вернуться в оглавление: Я.Практикум

 

В теме:

1. Введение

2. Эксперимент Бернулли

3. Биномиальный эксперимент

4. Биномиальное распределение

5. Непрерывное равномерное и нормальное распределения

6. Функция нормального распределения

7. Стандартное нормальное распределение и стандартизация

8. Percent Point Function для нормального распределения

9. Распределение Пуассона

10. Аппроксимация биномиального распределения распределением Пуассона

11. Аппроксимация биномиального распределения нормальным

12. Заключение

13. Проверочные задания. Распределения

Введение

  • Основы теории вероятностей и распределения вероятностей для случайной величины.
  • Биномиальное и нормальное распределения, распределение Пуассона.
  • Кумулятивная функция нормального распределения и обратная функция.
  • Аппроксимация одного распределения другим в определенных случаях
 
 
График распределения Бернулли. Одна линия для значения 1 с высотой p, другая линия для значения 0 с высотой 1-p.
На графике у линии для значения 1 высота — это вероятность успеха. Для значения высотой линии задаётся вероятность неуспеха. У этого столбца высота 1−p
 
Практическое значение имеет не только эксперимент Бернулли, но и серия таких экспериментов. Поговорим об этом в следующем уроке.
 

Биномиальный эксперимент

Кратко:

  • Биномиальный эксперимент - это эксперимент, в котором подряд проводят несколько одинаковых и независимых друг от друга испытаний Бернулли.
  • Примеры биномиальных экспериментов: пользователи кликают по баннеру, завод производит детали, питон в питон питомнике вырастает добрым или злым.
  • Расчёт вероятности определённого порядка успехов и неуспехов.
  • Вероятность того, что в биномиальном эксперименте успехи и неудачи произойдут в определённом порядке.
  • Вероятности исходов биномиального эксперимента с двумя испытаниями по схеме Бернулли.
  • Распределение вероятностей биномиального эксперимента с двумя испытаниями по схеме Бернулли
Биномиальный эксперимент — это эксперимент, в котором подряд проводят несколько одинаковых и независимых друг от друга испытаний Бернулли. Под независимостью понимают то же, что и в теории вероятностей: исход одного эксперимента не влияет на вероятности исходов другого.
 
 
p = 0.9 # вероятность, что питон добрый
prob = p * p * (1 - p)
print(prob)
Вероятность, что в тройке питонов случится именно такой порядок: два первых добрых, а последний злой — чуть больше 8 %.
Вероятностное пространство с четырьмя исходами в виде матрицы.
...или с помощью дерева:
 
Другой пример. В задаче о цвете глаз питонов определим случайную величину «количество питонов с зелёными глазами из двух выбранных случайно». Вероятность успеха, то есть зелёного цвета глаз, равна 25%. Случайная величина также принимает значения 0, 1 или 2 и имеет распределение вероятности:
 
       
Значение 0 1 2
Вероятность 56.25 % 37.5 % 6.25 %
 
Проверим расчёты:
  • Вероятность, что оба питона будут с зелёными глазами, равна 0.25^2=0.0625=6.25 %.
  • Вероятность, что цвет глаз у обоих питонов голубой, равна 0.75^2=0.5625=56.25 %.
  • Вероятность, что один с зелёными, а другой с голубыми: 0.25⋅0.75⋅2=37.5 %.
В сумме получаем единицу — значит, это корректное распределение вероятностей.
 
В этом уроке вы познакомились с идеей биномиального эксперимента и научились считать вероятности событий для двух испытаний по схеме Бернулли. В следующем уроке перейдём к более сложным случаям и построим распределение вероятностей для произвольного количества испытаний Бернулли и произвольного количества успехов.
 

Биномиальный эксперимент с тремя испытаниями Бернулли

Вспомним питонопитомник. В прошлом уроке было два питона, для них всего четыре исхода в вероятностном пространстве. Варианты можно было перебрать в уме. Когда экспериментов больше, посчитать возможные комбинации сложнее. Но с тремя справимся.
 
Возьмём трёх случайных питонов и посмотрим на их душевные качества.
 
 
Зная вероятности всех значений, можно рассчитать математическое ожидание и дисперсию для распределения. Для биномиального распределения формулы получаются короткими: мат.ожидание равно n⋅p, а дисперсия n⋅p⋅(1−p). По мат.ожиданию легко судить каким будет самое вероятное значение — это самое близкое к n⋅p число. Это видно и на графиках.

Графики биномиальных распределений

Приведём несколько примеров для разных n и p.
 
По горизонтальной оси отложим возможное число успехов, а по вертикальной — вероятность соответствующего исхода. Всего может случиться от 0 до успехов, то есть возможен n+1 вариант.
 
Сначала рассмотрим случай, когда вероятность успеха равна вероятности неудачи (обе равны 50 %). В такой ситуации график распределения будет симметричным. Проверим это с помощью Python. Допустим, эксперимент повторили 5 раз, то есть n=5, и вероятность успеха равна 50 % на каждом повторении, то есть p=0.5
from matplotlib import pyplot as plt
from math import factorial
n = 5 # количество попыток
p = 0.5 # вероятность успеха
distr = []
for k in range(0, n + 1):
    choose = factorial(n) / (factorial(k) * factorial(n - k))
Результат
 
 
from matplotlib import pyplot as plt
from scipy.stats import binom
n = 26 # количество попыток
p = 0.9 # вероятность успеха
distr = []
for k in range(0, n + 1):
    current_value = binom.pmf(k, n, p)
    distr.append(current_value)
plt.bar(range(0, n + 1), distr)
Если вероятность успеха в каждом испытании равна 90 % то с высокой вероятностью мы получим много успехов в серии испытаний. Например, при 26 попытках практически всегда количество успехов будет больше 17.
 
 
from matplotlib import pyplot as plt
from math import factorial
p = 0.2 # напишите ваш код здесь: какова вероятность заключить контракт?
n = 30 # напишите ваш код здесь: со сколькими компаниями начинаем переговоры?
# напишите ваш код здесь: создайте список distr, в котором будете хранить значения распределения
distr = []
for k in range(0, n + 1):
	   # напишите ваш код здесь: постройте распределение вероятностей
    choose = factorial(n) / (factorial(k) * factorial(n - k))
    prob = choose * p**k * (1 - p)**(n - k) 
    distr.append(prob)
# напишите ваш код здесь: постройте гистограмму распределения вероятностей
plt.bar(range(0, n + 1), distr)
Если начать переговоры с 30 медиа, то 6 — наиболее вероятный результат. Однако слишком велика вероятность, что успехов будет меньше. На гистограмме видно, что в диапазоне от 0 до 5 успехов примерно половина всего распределения. Риск неприемлемо велик.
 
from matplotlib import pyplot as plt
from math import factorial
p = 1/5
n = 60
distr = []
for k in range(0, n + 1):
    choose = factorial(n) / (factorial(k) * factorial(n - k))
    prob = choose * p**k * (1-p)**(n-k) 
    distr.append(prob)
plt.bar(range(0, n + 1), distr)
from matplotlib import pyplot as plt
from math import factorial
n_exams = 6 # напишите ваш код здесь: сколько экзаменов надо сдать?
failure_rate = 0.15 # напишите ваш код здесь: какова вероятность завалить один экзамен?
distr = [] # создайте список distr, в котором будете хранить значения распределения
for k in range(0, n_exams + 1):
     # посчитайте кол-во вариантов выбрать k из n_exams
    choose = factorial(n_exams) / (factorial(k) * factorial(n_exams-k))
    # посчитайте вероятность
    prob = choose * failure_rate**k*(1-failure_rate)**(n_exams-k)
    # добавьте очередную вероятность prob в список distr
    distr.append(prob)
# построение гистограммы распределения вероятностей
plt.bar(range(0, n_exams + 1), distr)
 
Казалось бы, вероятность прохождения экзамена в 85 % должна вселять уверенность. Но оказывается, что при n=6 и p=0.15 вероятность завалить один экзамен выше, чем вероятность не завалить ни одного. А если сравнить вероятность не завалить ни одного с вероятностью завалить хотя бы один (то есть один или больше), получаем, что с вероятностью более 60 % хотя бы один экзамен будет не пройден (видно, что вероятность нуля меньше, чем 40 %). Выходит, 85 % успехов недостаточно и надо готовиться лучше.
 

Непрерывное равномерное и нормальное распределения

Кратко:

В статье обсуждаются непрерывные случайные величины и их распределения.
- Непрерывное равномерное распределение: случайная величина принимает любые значения на определённом промежутке или даже на всей числовой прямой.
- Непрерывное равномерное распределение задаётся функцией плотности вероятности.
- Нормальное распределение: среднее и дисперсия определяют параметры нормального распределения.
- Правило трёх сигм: почти 100% значений попадают в пределы трёх стандартных отклонений от математического ожидания.
- Сравнение распределений: непрерывное равномерное и нормальное распределения имеют свои сходства и различия

В теме «Случайные величины» мы обсуждали, что для дискретной случайной величины распределение вероятностей задаётся таблицей. В этой таблице указываются все возможные значения этой случайной величины и вероятность каждого из них:
 
             
Значения x1 x2 xm
Вероятности p1 p2 pm
 
А что насчёт непрерывных случайных величин? Для них сложно составить такую таблицу, ведь эти случайные величины принимают любые значения на определённом промежутке или даже на всей числовой прямой.
 
Для таких величин задают функцию плотности вероятности, по которой можно рассчитать вероятность того, что случайная величина попадёт в нужный промежуток. Плотность вероятности в этом смысле аналогична плотности частоты при построении гистограммы: площадь под графиком над выбранным интервалом равна вероятности того, что случайная величина попадёт в этот интервал.
 
Посмотрим, как это выглядит и работает на примерах.

Непрерывное равномерное распределение

Простейший пример непрерывной случайной величины — непрерывная случайная величина с равномерным распределением между числами и b. Назовём её X. Пишут X∼U[a,b] (англ. Uniform — равномерный).
 
Обычно равномерным распределением описывают процессы, о которых мало информации или в целом нет причин предполагать сложную зависимость. Например:
  • 10-метровый провод повреждён, но в какой именно точке — неизвестно. Видно, что на первых двух метрах всё в порядке, как и на последних трёх. Оставшаяся средняя часть провода скрыта за плинтусом. У электрика нет более точной информации о местоположении повреждения, то есть оно с равной вероятностью может располагаться в любом месте скрытого промежутка. Поэтому подходит равномерное распределение с a=2 и b=10−3=7. Значит, здесь X∼U[2,7].
  • Николай ждёт звонка с 13:30 до 15:00. Звонок происходит в случайный момент, то есть с равной вероятностью от начала периода может пройти любое время. Здесь X∼U[13.5,15].
  • Турист ждёт поезд в метро. Турист не знает города, поэтому считает, что поезда приходят в случайное время. По разговорам людей турист понял, что поезд в метро всегда приходит в течение 3 минут. Он с равной вероятностью может прождать любой промежуток времени до 3 минут. Здесь X∼U[0,3].
График плотности вероятности для X будет выглядеть так:
 
График плотности вероятности для непрерывной случайной величины X. Подробности ниже в тексте урока.
Функция плотности вероятности для непрерывного равномерного распределения равна нулю везде, кроме отрезка [a,b]. На отрезке [a,b] она равна 1/(b−a), потому что общая площадь под графиком должна быть равна 1. Аналогичное верно и для дискретных распределений: сумма вероятностей всех значений должна быть равна 1.
 
Проверим, что площадь под функцией плотности вероятности для непрерывного равномерного распределения равна 1. Эта площадь равна площади прямоугольника с длиной, равной длине отрезка [a,b], и высотой, равной 1/(b−a). Получаем: (b−a)⋅1/(b−a)=1, что и было нужно!
 
Используем функцию плотности вероятности, чтобы найти вероятность того, что X попадёт в конкретный интервал. Рассмотрим задачу.
 
Программист Никита решает рабочую задачу за время от двух до пяти часов, причём с одинаковой вероятностью на случайную задачу он тратит любое время из этого промежутка и никогда — меньше двух или больше пяти часов. Значит, это равномерное распределение с a=2 и b=5, то есть X∼U[2,5].
 
Вычислим 1/(b−a) при таких a и b: 1/(5−2)=1/3 Значит, график плотности вероятности выглядит так:
 
График плотности вероятности для непрерывной случайной величины X. Функция плотности на отрезке от 2 до 5 равна 1/3.
Определим, чему равна вероятность того, что Никита потратит на решение следующей задачи из бэклога от двух до четырёх часов? Вероятность того, что X попадёт в интервал [2,4], равна площади под графиком над этим отрезком:
 

Нормальное распределение

Многие случайные величины распределены так:
  • Средние значения и значения около них встречаются с высокой вероятностью.
  • Чем дальше от среднего, тем меньше вероятность встретить такое значение.
  • Вероятность очень маленьких или очень больших значений мала, но есть.
Например, рост взрослых людей практически всегда следует этой закономерности. В мире много людей среднего роста и людей с ростом, незначительно отличающимся от среднего. Низких и высоких людей меньше. Очень низких и очень высоких людей совсем мало, но нет-нет, да и встречаются такие. Этот пример хорошо иллюстрирует фотография ниже. На ней расставлены по росту студенты одного из колледжей.
 
Фотография расставленных по интервалам роста шириной в 1 дюйм 175 студентов одного из колледжей (Blakeslee, 1914)
 
На фотографии видно, что большинство студентов — среднего роста. Количество студентов с ростом выше или ниже среднего значения постепенно уменьшается по мере отдаления от среднего.
 
Другой пример — урожайность яблонь в саду. Большинство яблонь плодоносят средне, то есть имеют урожайность, которая немного отличается от среднего значения. Яблонь, которые плодоносят совсем плохо или удивительно хорошо, — мало, но нет-нет, да и впечатлит какое-то дерево.
 
Ещё пример. Мясокомбинат производит котлетки. По нормам, масса одной котлетки должна быть 50 граммов. Из-за погрешностей приборов или небольших отклонений в ингредиентах фактическая масса каждой котлетки может отличаться от нормы. Большинство котлеток будут иметь массу около нормы. Значительные отклонения от среднего маловероятны, и чем больше отклонение, тем менее оно вероятно. И всё же полуфабрикаты необычных размеров иногда попадаются в упаковке.
 
В мире много и других случайных величин с таким распределением. Если нарисовать это распределение, получится похожая на колокол кривая. Поэтому форму распределения иногда называют колоколообразной.
 
Формально такое распределение называется нормальным, оно описывает непрерывные случайные величины, и график его плотности вероятности выглядит так:
 
График плотности вероятности случайной величины с нормальным распределением. Получившаяся кривая похожа на колокол.
Конечно, оно построено таким образом, чтобы площадь под всей кривой была равна 1.
 
Почему многие величины имеют нормальное распределение?
 
График плотности вероятности случайной величины с нормальным распределением. Центр колокола задаёт параметр мю. Ширину колокола задаёт параметр сигма.
Например, автомат по производству конфет запрограммирован выдавать конфеты массой в три грамма. Но из-за небольших изменений в давлении внутри автомата и в составе смеси, из которой делаются конфеты, возможны небольшие отклонения в большую или в меньшую сторону. Чем дальше отклонение от 3 грамм, тем меньше его вероятность. Производитель автомата сообщает, что стандартное отклонение массы конфет составляет 0.3 грамма.
Массу конфет можно смоделировать как случайную величину L, имеющую нормальное распределение с указанными параметрами: L∼N(3,0.32). Отобразим плотность вероятности L на графике:
 
График плотности вероятности случайной величины с нормальным распределением. Центр колокола — значение 3.
Стандартное отклонение σ, равное 0.3, задаёт ширину колокола.
 
Обратите внимание на обозначения. Случайную величину мы называли заглавной буквой — , а ось обозначили маленькой . Принято сами случайные величины обозначать заглавными буквами, а их конкретные значения — строчными. Случайная величина L может принять значения l(0)=3 или l(1)=4.

Вероятности попадания в интервал

Имея распределение, можно рассчитать вероятность, что масса случайной конфеты окажется, например, между 2.5 и 3.5 граммами. Такая вероятность — это площадь под кривой между этими значениями:
 
График плотности вероятности случайной величины с нормальным распределением. На графике выделен участок между 2.5 и 3.5.
По графику видно, что закрашенная площадь явно больше половины всей площади под кривой. Значит, масса конфеты скорее попадёт в этот интервал, чем нет.
 
Видно, что, скорее всего, вес конфеты окажется близким к 3. Поэтому, собственно, параметр μ=3 и называется математическим ожиданием.
 
Интервал может быть и бесконечным. Например, можно посчитать, какова будет вероятность, что вес конфеты окажется больше, чем 3.4 грамма. Эта вероятность равна соответствующей площади на графике:
 
График плотности вероятности случайной величины с нормальным распределением. На графике выделен участок больше 3.4.
Такой график ещё называют «хвостом» распределения. На иллюстрации изображён правый «хвост».
 
Видно, что вероятность того, что вес конфеты окажется меньше 2 или больше , очень мала. А вероятность того, что вес конфеты окажется меньше 1.5 или больше 4.5, практически равна нулю.
 
В следующих уроках вы научитесь рассчитывать вероятности для попадания нормально распределённой случайной величины в любой интервал. А сейчас разберёмся, как будет вести себя график плотности вероятности при изменении μ и .

Изменение параметров нормального распределения

Параметры μ и σ задают нормальное распределение, а значит, и вид его графика.
 
 
Как получился этот интервал?
 
Математическое ожидание суммы десяти таких величин равно: μсуммы=10⋅μ=10⋅70=700
 
Осталось только найти для суммы промежуток, границы которого отстоят на плюс-минус три стандартных отклонения от математического ожидания:
 
[μсуммы−3⋅σсуммы, μсуммы+3⋅σсуммы]=[700−3⋅10*10**0.5, 700+3⋅10*10**0.5]≈[605.13, 794.87].
 

Функция нормального распределения

Кратко:

  • Функция нормального распределения задается двумя параметрами: центром и стандартным отклонением.
  • Функция распределения (кумулятивная функция) накапливает вероятность по мере роста значения x.
  • Для непрерывного нормального распределения кумулятивная функция F(x) = P(X ≤ x) = P(X < x) = P(X ∈ (-∞, x)).
  • График плотности вероятности нормального распределения имеет колоколообразную форму.
  • Методы norm() и cdf() из пакета scipy.stats помогают рассчитать значения функции нормального распределения.
  • Метод cdf() возвращает вероятность, что случайная величина примет значение, меньшее заданного аргумента.
  • Вероятность попадания в конечный интервал рассчитывается путем вычитания меньшей кумулятивной вероятности из большей.
  • Пример задачи: время реакции беспилотного автомобиля на препятствие распределено нормально, нужно найти вероятность попадания в интервал от 900 до 1100 миллисекунд
Графики плотности вероятности нормального распределения и его кумулятивной функции. Ниже в теории рассказываем, как они выглядят и чем различаются.
График плотности вероятности нормального распределения — колоколообразной формы: до функция растёт, а после — убывает. Поэтому для x<μ площадь графика под кумулятивной функцией возрастает быстрее, а при x>μ — медленнее. Говоря неформально, до μ функция распределения накапливает вероятность быстрее, а затем — медленнее.
 
Графики плотности вероятности нормального распределения и его кумулятивной функции. На графиках отмечено, как соотносится возрастание и убывание функции плотности вероятности с тем, как возрастает кумулятивная функция.
Посмотрите на графике, как кумулятивная функция показывает вероятность левого хвоста для разных значений X: μ−σ, μ, μ+2σ:
 
Результат
0.5
Вероятность получить значение больше 1150 при таком распределении невелика: примерно 0.0668 или около 6.7 %.
 
Медаль получат чуть больше 40 % студентов. Иногда и спортивным тренерам нужна теория вероятностей: например, чтобы рассчитать, сколько грамот и медалей заказывать.
 

Стандартное нормальное распределение и стандартизация

Кратко:

  • Стандартное нормальное распределение - это нормальное распределение с математическим ожиданием, равным 0, и стандартным отклонением, равным 1.
  • Любое нормальное распределение можно с помощью простых арифметических операций привести к стандартному.
  • Чтобы стандартизировать нормальное распределение, нужно: Вычесть из случайной величины её математическое ожидание μ - график распределения при этом сдвинется так, чтобы центр оказался в нуле.
  • Разделить полученную случайную величину на стандартное отклонение σ.
  • Стандартизация помогает решить задачи алгебраически.
  • Z-значение - это количество стандартных отклонений, на которое некоторое число отклонилось от центра нормального распределения.
  • Расчёт Z-значений позволяет сравнить, на сколько значения случайных величин с разными нормальными распределениями отклонились от своих математических ожиданий
В прошлых уроках вы познакомились с нормальным распределением и его функцией распределения. Среди всех нормальных распределений есть одно особенное, его называют стандартным.
 
Любое нормальное распределение можно с помощью простых арифметических операций привести к стандартному. Такое преобразование называют стандартизацией.
 
Чтобы стандартизировать нормальное распределение, нужно:
  1. Вычесть из случайной величины её математическое ожидание μ — график распределения при этом сдвинется так, чтобы центр оказался в нуле.
  2. Разделить полученную случайную величину на стандартное отклонение σ Стандартное отклонение получившегося распределения станет равным 1.
 
Описание иллюстрации — в тексте выше.
Запишем формулой:
 
X∼N(μ,σ^2)⇒(X−μ)/σ∼N(0,1)
 
Посмотрите на графики нормального распределения с μ=20,σ=3 и стандартного нормального распределения, которое получается из него стандартизацией:
 
 
 
 
 
 
 
Первая подсказка
Вторая подсказка
 
 

Распределение Пуассона

Кратко:

  • Статья посвящена распределению Пуассона и его применению в различных задачах.
  • Распределение Пуассона описывает вероятности возможного числа событий в процессах с известной интенсивностью.
  • Параметры λ (лямбда) и математическое ожидание совпадают, а дисперсия равна λ.
  • Вероятность P(Y=k) для k событий в заданном периоде можно рассчитать по формуле P(Y=k) = λ^kk!· e^λ.
  • График распределения Пуассона показывает вероятности для разных значений k.
  • Функция распределения Пуассона позволяет находить кумулятивные вероятности и "хвосты" распределения.
  • Распределения Пуассона и биномиальное распределение могут быть аппроксимированы друг другом
В этом уроке вы познакомитесь с ещё одним распределением, которое часто встречается на практике, и научитесь использовать его для решения задач.
Сумма вероятностей всех значений строго равна единице, хотя их и бесконечное количество. Это работает в том числе потому, что при увеличении k вероятность такого значения стремится к нулю.
Для примера с северным сиянием получается так:
 
             
Количество сияний 0 1 2 k
Вероятность 1/e^3 3/e^3 9/2!⋅e^3 3^k/k!⋅e^3
 
Вероятность, что не будет ни одного сияния за неделю, равна 1/e^3≈4.98 %
Вероятность трёх сияний за неделю равна 3^3/3!⋅e^3≈22.4 %.
При этом мы не знаем, в какие дни они случатся, — но знаем, с какой вероятностью за неделю их окажется именно столько.
 
Интересно, что в этом случае вероятности двух и трёх сияний за неделю одинаковы. Чтобы убедиться в этом, преобразуем расчёт вероятности трёх сияний:
 
P(Y=3)=3^3/3!⋅e^3=3⋅3⋅3/(1⋅2⋅3⋅e^3)=3⋅3/(1⋅2⋅e^3)=9/(2!⋅e^3)
Ваш ответ правильный
0.18
 
Чаще всего футболисты «Манчестер Юнайтед» забивали по 1–2 гола за матч. Эти значения были и самыми прогнозируемыми.

Функция распределения Пуассона

В модуле scipy.stats есть ещё один метод: poisson.cdf(). Он выдаёт значения функции распределения для распределения Пуассона, то есть суммарную вероятность значений от 0 до заданного. Построим с его помощью график функции вероятности для того же распределения с параметром λ=3. Отобразим значения функции вероятности для первых 20 целых значений, на которых определено распределение Пуассона.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson
# параметр лямбда:
lmbd = 3
distr = []
# для значений от 0 до 19
for x in range(20):
Получим следующий график:
 
 
 
Результат:
Вероятность правого "хвоста" распределения Пуассона от 50 при lambda=52.6 равна 0.657101690371793 
65.71 % — почти две трети, немало. А если добавить к days 30 дней сентября, получится больше 99 %. Если что, заботящиеся об экологии сотрудники пляжа могут рассчитывать на бархатный сезон.
 

Аппроксимация биномиального распределения распределением Пуассона

Кратко:

Аппроксимация биномиального распределения распределением Пуассона полезна, когда количество испытаний велико, а вероятность успеха мала.
Распределение Пуассона имеет только один параметр - интенсивность, что облегчает масштабирование на разные промежутки времени.
Аппроксимация работает лучше, если количество испытаний и вероятность успеха больше, а математическое ожидание обоих распределений одинаково.
Сравнение вероятностей для обоих распределений позволяет оценить близость аппроксимации.
Аппроксимация не работает хорошо, когда вероятность успеха близка к нулю, но увеличение количества испытаний и уменьшение вероятности успеха улучшает аппроксимацию.
Пример с баннерами показывает, как аппроксимация распределением Пуассона может помочь выбрать количество показов и время для показа баннера

Аппроксимация (лат. approximatis — поблизости) — это математический термин для приближения. Аппроксимировать — значит найти значения, близкие к интересующим исследователя.
 
 

Аппроксимация биномиального распределения нормальным

Кратко:

  • Биномиальное распределение описывает множество переменных и часто возникает задача найти вероятность "хвоста" распределения.
  • Нормальная аппроксимация удобна и быстра для вычислений.
  • Аппроксимация выполняется, если условие выполнено: математическое ожидание биномиального распределения в пределах ± три стандартных отклонения.
  • Чем ближе p к 0,5, тем меньше должно быть n для выполнения условия аппроксимации.
  • Чем ближе p к 0,5, тем меньше ошибки аппроксимации.
  • Аппроксимация нормальным распределением подходит для поиска вероятности "хвоста" биномиального распределения

 

В этом уроке разберём, в каких случаях для биномиального распределения можно найти близкую к нему аппроксимацию нормальным распределением.
 
Биномиальным распределением описывается множество переменных, и часто возникает задача найти вероятность «хвоста» распределения. Например, вы заказали полтора миллиона показов баннера и знаете, что на него кликает 2.9 % тех, кто его просмотрел. Рассчитать вероятность того, что вы получите менее 43000 кликов, можно и с помощью биномиального распределения. Но удобнее и быстрее с точки зрения вычислений использовать нормальную аппроксимацию.
В предыдущем уроке нас интересовали клики за промежуток времени. А теперь мы проанализируем общее число кликов в зависимости от показов баннера.
 
Напомним: биномиальное распределение задаётся двумя параметрами: n — количеством испытаний по схеме Бернулли и p — вероятностью успеха в каждом из них. Вспомните, как выглядят графики биномиального распределения для разных n и p.
Для n=25 и p=0.5:
 
Для n=30 и p=0.07:
 
 
Правильный ответ
Хотя μ−3σ и близко к нулю, промежуток μ±3σ (математическое ожидание ± три стандартных отклонения) лежит в пределах [0,n] — а значит, аппроксимация должна работать хорошо. Это видно и на графике.
Вот несколько результатов, которые выдаёт тот же код, но для разных n и p.
  • n=20, p=0.5:
 
График биномиального распределения и аппроксимирующего его нормального при n=20 и p=0.5. При этом условие хорошей аппроксимации выполняется.
 
 
Условие выполняется 
 
При p, равном 0.5, аппроксимация практически идеальна, даже при небольшом n.
  • n=50, p=0.03:
 
График биномиального распределения и аппроксимирующего его нормального при n=50 и p=0.03. При этом условие хорошей аппроксимации не выполняется.
 
 
Условие не выполняется 
 
0.03 — слишком маленькая вероятность успеха для n=50, чтобы промежуток μ±3σ поместился в [0,n]. Биномиальное распределение получается скошенным и поэтому не описывается нормальным достаточно близко.
  • Если оставить ту же вероятность p=0.03, но увеличить n в десять раз, условие уже будет выполняться и аппроксимация будет хорошей.
    n=500, p=0.03:
 
График биномиального распределения и аппроксимирующего его нормального при n=500 и p=0.03. При этом условие хорошей аппроксимации выполняется.
 
 
Условие выполняется 
 
Несколько примеров с разными n при p=0.99.
n=100, p=0.99:
 
График биномиального распределения и аппроксимирующего его нормального при n=100 и p=0.99. При этом условие хорошей аппроксимации не выполняется.
 
 
Условие не выполняется 
 
При таких n и p график биномиального распределения скошен влево. Условие не выполняется, и аппроксимация нормальным распределением не подходит.
 
Однако даже при таком p достаточно взять n побольше и условие выполнится.
n=10000, p=0.99:
 
График биномиального распределения и аппроксимирующего его нормального при n=10000 и p=0.99. При этом условие хорошей аппроксимации выполняется.
 
 
Условие выполняется 
 
Правильный ответ
График биномиального распределения и аппроксимирующего его нормального.
Найдём точную вероятность P(X=16) и её аппроксимацию.
Точная вероятность: P(X=16)=C(45)(16)⋅0.4^16⋅0.6^(45−16)≈0.102329
 
Аппроксимация будет равна площади под графиком плотности вероятности Y над промежутком [15.5,16.5]:
 
 
Как средняя и максимальная ошибки аппроксимации зависят от n и p
 
 
 
 
 
 
 
 
 
Задание 8 из 10
 
 
 
 
 

Следующая тема:  САД. Проверка гипотез

Вернуться в раздел: Статистический анализ данных

Вернуться в оглавление: Я.Практикум