Следующая тема: САД. Комбинаторика
Вернуться в раздел: Статистический анализ данных
Вернуться в оглавление: Я.Практикум
В теме:
1. Введение
Введение
Кратко:
- Курс по статистическому анализу данных для начинающих.
- Проверка гипотез с помощью статистических методов.
- Основы статистики и теории вероятностей.
- Выбор оптимальных метрик для описания данных.
- Разбираться в основах комбинаторики.
- Оценка дискретных и непрерывных величин с помощью гистограмм разных типов.
- Выводы о данных по статистическим показателям.
- Знакомство с основами теории вероятностей
Добро пожаловать в курс по статистическому анализу данных!
В работе с продуктом возникает множество гипотез. Их проверяют статистическими методами. Сейчас вы познакомитесь с основами статистики и теории вероятностей: разберём их применение на задачах бизнеса.
Ваши цели:
- научиться выбирать оптимальные метрики для описания данных;
- разбираться в основах комбинаторики;
- оценивать дискретные и непрерывные величины при помощи гистограмм разных типов;
- делать выводы о данных по статистическим показателям;
- познакомиться с основами теории вероятностей;
- знать основные типы распределений;
- научиться строить и проверять гипотезы.
В конце курса вас ожидает самостоятельный проект. Предстоит решить аналитическую задачу в сфере аренды самокатов.
Делая первые шаги в изучении статистики и теории вероятностей, внимательно читайте теорию. Это фундамент для решения будущих, более сложных задач.
Описание проекта
Кратко:
- Продолжительность поездок округлена с помощью np.ceil() библиотеки numpy.
- Помесячная выручка рассчитывается по формуле: (стоимость старта + стоимость одной минуты + стоимость подписки).
- Вы можете использовать нормальную аппроксимацию биномиального распределения и cdf() для быстрой оценки.
- Аналитик должен проанализировать данные о пользователях и их поездках.
- Шаг 6: проверка гипотез, увеличение количества пользователей с подпиской, оптимизация расстояния поездок и помесячной выручки.
- Шаг 7: акции с раздачей промокодов и оценка вероятности открытия push-уведомлений
Вы аналитик популярного сервиса аренды самокатов GoFast. Вам передали данные о некоторых пользователях из нескольких городов, а также об их поездках. Проанализируйте данные и проверьте некоторые гипотезы, которые могут помочь бизнесу вырасти.
Чтобы совершать поездки по городу, пользователи сервиса GoFast пользуются мобильным приложением. Сервисом можно пользоваться:
- без подписки
- абонентская плата отсутствует;
- стоимость одной минуты поездки — 8 рублей;
- стоимость старта (начала поездки) — 50 рублей;
- с подпиской Ultra
- абонентская плата — 199 рублей в месяц;
- стоимость одной минуты поездки — 6 рублей;
- стоимость старта — бесплатно.
Описание данных
В основных данных есть информация о пользователях, их поездках и подписках.
Пользователи —
users_go.csv
Поездки —
rides_go.csv
Подписки —
subscriptions_go.csv
Шаг 1. Загрузка данных
1.1 Считайте CSV-файлы с данными с помощью библиотеки pandas и сохраните их в дата фреймы. Пути к файлам:
/datasets/users_go.csv
/datasets/rides_go.csv
/datasets/subscriptions_go.csv
1.2 Выведите первые строки каждого набора данных. Изучите общую информацию о каждом дата фрейме.
Шаг 2. Предобработка данных
2.1 Приведите столбец
date
к типу даты pandas.2.2 Создайте новый столбец с номером месяца на основе столбца
date
.2.3 Проверьте наличие пропущенных значений и дубликатов в дата фреймах. Обработайте их, если такие значения присутствуют.
Шаг 3. Исследовательский анализ данных
Опишите и визуализируйте общую информацию о пользователях и поездках:
3.1 частота встречаемости городов;
3.2 соотношение пользователей с подпиской и без подписки;
3.3 возраст пользователей;
3.4 расстояние, которое пользователь преодолел за одну поездку;
3.5 продолжительность поездок.
Шаг 4. Объединение данных
4.1 Объедините данные о пользователях, поездках и подписках в один датафрейм. Для этого воспользуйтесь методом
merge()
.4.2 Создайте ещё два датафрейма из датафрейма, созданного на этапе 4.1:
- c данными о пользователях без подписки;
- с данными о пользователях с подпиской.
4.3 Визуализируйте информацию о расстоянии и времени поездок для пользователей обеих категорий.
Шаг 5. Подсчёт выручки
5.1 Создайте датафрейм с агрегированными данными о поездках на основе датафрейма с объединёнными данными из шага 4: найдите суммарное расстояние, количество поездок и суммарное время для каждого пользователя за каждый месяц.
5.2 В этот же датафрейм добавьте столбец с помесячной выручкой, которую принёс каждый пользователь. Для этого обратитесь к информации об условиях оплаты для подписчиков и тех, у кого нет подписки. Продолжительность каждой поездки в каждой строке исходного датафрейма для подсчёта стоимости округляется до следующего целого числа: например, значения 25.3, 25.5 и 26.0 должны быть преобразованы к 26.
Подсказка
import numpy as np
# каждое значение из столбца duration округляется с помощью «потолка»:
rides_df['duration'] = np.ceil(rides_df['duration'])
Шаг 6. Проверка гипотез
Продакт-менеджеры сервиса хотят увеличить количество пользователей с подпиской. Для этого они будут проводить различные акции, но сначала нужно выяснить несколько важных моментов.
6.1 Важно понять, тратят ли пользователи с подпиской больше времени на поездки? Если да, то пользователи с подпиской могут быть «выгоднее» для компании. Проверьте гипотезу. Используйте исходные данные о продолжительности каждой сессии — отдельно для подписчиков и тех, у кого нет подписки.
6.2 Расстояние одной поездки в 3130 метров — оптимальное с точки зрения износа самоката. Можно ли сказать, что расстояние, которое проезжают пользователи с подпиской за одну поездку, не превышает 3130 метров? Проверьте гипотезу и сделайте выводы.
6.3. Проверьте гипотезу о том, будет ли помесячная выручка от пользователей с подпиской по месяцам выше, чем выручка от пользователей без подписки. Сделайте вывод.
6.4. Представьте такую ситуацию: техническая команда сервиса обновила сервера, с которыми взаимодействует мобильное приложение. Она надеется, что из-за этого количество обращений в техподдержку значимо снизилось. Некоторый файл содержит для каждого пользователя данные о количестве обращений до обновления и после него. Какой тест вам понадобился бы для проверки этой гипотезы?
Шаг 7 (необязательное задание). Распределения
7.1 Отделу маркетинга GoFast поставили задачу: нужно провести акцию с раздачей промокодов на один бесплатный месяц подписки, в рамках которой как минимум 100 существующих клиентов должны продлить эту подписку. То есть по завершении периода действия подписки пользователь может либо отказаться от неё, либо продлить, совершив соответствующий платёж.
Эта акция уже проводилась ранее и по итогу выяснилось, что после бесплатного пробного периода подписку продлевают 10 % пользователей. Выясните, какое минимальное количество промокодов нужно разослать, чтобы вероятность не выполнить план была примерно 5 %. Подберите параметры распределения, описывающего эту ситуацию, постройте график распределения и сформулируйте ответ на вопрос о количестве промокодов.
7.2 Отдел маркетинга рассылает клиентам push-уведомления в мобильном приложении. Клиенты могут открыть его или не открывать. Известно, что уведомления открывают около 40 % получивших клиентов. Отдел планирует разослать 1 млн уведомлений. С помощью аппроксимации постройте примерный график распределения и оцените вероятность того, что уведомление откроют не более 399,5 тыс. пользователей.
Подсказка
Следующая тема: САД. Комбинаторика
Вернуться в раздел: Статистический анализ данных
Вернуться в оглавление: Я.Практикум