Следующая тема: ИАД. Первые графики и выводы
Вернуться в раздел: Исследовательский анализ данных
Вернуться в оглавление: Я.Практикум
В теме:
1. Исследовательский анализ данных
Исследовательский анализ данных
Добро пожаловать на курс по исследовательскому анализу данных. В этом курсе вы будете строить графики. На подготовительном этапе они нужны для оценки качества данных, а затем — для выдвижения гипотез, поисков закономерностей и подкрепления ваших выводов в отчётах. Ваши цели:
- научиться работать с инструментами для построения графиков: hist(), boxplot(), plot();
- научиться делать срезы данных;
- изучить метод join() для объединения таблиц и повторить метод merge();
- разобраться, как определять и интерпретировать взаимосвязи различных данных;
- научиться автоматизировать процесс построения набора графиков. В тренажёре вы решите кейс от команды Яндекс.Навигатора. В 2018 году Яндекс запустил сервис оплаты заправки на АЗС из Яндекс.Навигатора — водители оплачивают бензин через приложение не выходя из машины. Повторите путь наших аналитиков. Вернитесь на стадию анализа рынка для сервиса онлайн-оплаты заправки и оцените среднее время, которое водители проводят на АЗС. Подготовьте список потенциальных партнёров — крупных сетей АЗС.
В конце курса вас ожидает самостоятельный проект. Вы познакомитесь с аналитикой рынка недвижимости и узнаете, что влияет на конечную стоимость квартиры. Предложенное вами решение поможет построить автоматизированную систему, отслеживающую аномалии и мошеннические действия.
Это курс средней сложности. Вам пригодятся знания по работе с объединением таблиц из прошлого курса. Вы также изучите новые методы работы с датами.
- цена одного квадратного метра (нужно поделить стоимость объекта на его общую площадь, а затем округлить до двух знаков после запятой);
- день недели публикации объявления (0 — понедельник, 1 — вторник и так далее);
- месяц публикации объявления;
- год публикации объявления;
- тип этажа квартиры (значения — «первый», «последний», «другой»);
- расстояние до центра города в километрах (переведите из м в км и округлите до ближайших целых значений).
Шаг 4. Проведите исследовательский анализ данных:
- Изучите перечисленные ниже параметры объектов и постройте отдельные гистограммы для каждого из этих параметров. В некоторых параметрах встречаются редкие и выбивающиеся значения. При построении гистограмм удалите их. Например, в столбце ceiling_height может быть указана высота потолков 25 м и 32 м. Логично предположить, что на самом деле это вещественные значения: 2.5 м и 3.2 м. Попробуйте обработать аномалии в этом и других столбцах, если они есть. Если природа аномалии понятна и данные действительно искажены, то восстановите корректное значение. В противном случае удалите редкие и выбивающиеся значения.
Список параметров:
- общая площадь;
- жилая площадь;
- площадь кухни;
- цена объекта;
- количество комнат;
- высота потолков;
- тип этажа квартиры («первый», «последний», «другой»);
- общее количество этажей в доме;
- расстояние до центра города в метрах;
- расстояние до ближайшего парка
- Опишите все ваши наблюдения по параметрам в ячейке с типом markdown.
- Изучите, как быстро продавались квартиры (столбец days_exposition). Этот параметр показывает, сколько дней было размещено каждое объявление.
- Постройте гистограмму.
- Посчитайте среднее и медиану.
- В ячейке типа markdown опишите, сколько времени обычно занимает продажа. Какие продажи можно считать быстрыми, а какие — необычно долгими?
- Какие факторы больше всего влияют на общую (полную) стоимость объекта?
Изучите, зависит ли цена от:
- общей площади;
- жилой площади;
- площади кухни;
- количества комнат;
- этажа, на котором расположена квартира (первый, последний, другой);
- даты размещения (день недели, месяц, год). Постройте графики, которые покажут зависимость цены от указанных выше параметров. Для подготовки данных перед визуализацией вы можете использовать сводные таблицы.
- Посчитайте среднюю цену одного квадратного метра в 10 населённых пунктах с наибольшим числом объявлений — постройте сводную таблицу с количеством объявлений и средней ценой квадратного метра для этих населенных пунктов. Выделите населённые пункты с самой высокой и низкой стоимостью квадратного метра. Ранее вы посчитали расстояние до центра в километрах. Теперь выделите квартиры в Санкт-Петербурге с помощью столбца locality_name и вычислите среднюю цену каждого километра. Опишите, как стоимость объектов зависит от расстояния до центра города — постройте график изменения средней цены для каждого километра от центра Петербурга.
Шаг 5. Напишите общий вывод
Опишите полученные результаты и зафиксируйте итоговый вывод проведённого исследования.
Оформление
Выполните задание в Jupyter Notebook. Заполните программный код в ячейках типа code, текстовые пояснения — в ячейках типа markdown. Примените форматирование и заголовки.
Описание данных
airports_nearest — расстояние до ближайшего аэропорта в метрах (м)
balcony — число балконов
ceiling_height — высота потолков (м)
cityCenters_nearest — расстояние до центра города (м)
days_exposition — сколько дней было размещено объявление (от публикации до снятия)
first_day_exposition — дата публикации
floor — этаж floors_total — всего этажей в доме
is_apartment — апартаменты (булев тип)
kitchen_area — площадь кухни в квадратных метрах (м²)
last_price — цена на момент снятия с публикации
living_area — жилая площадь в квадратных метрах (м²)
locality_name — название населённого пункта open_plan — свободная планировка (булев тип)
parks_around3000 — число парков в радиусе 3 км
parks_nearest — расстояние до ближайшего парка (м)
ponds_around3000 — число водоёмов в радиусе 3 км
ponds_nearest — расстояние до ближайшего водоёма (м)
rooms — число комнат studio — квартира-студия (булев тип)
total_area — общая площадь квартиры в квадратных метрах (м²)
total_images — число фотографий квартиры в объявлении
Как будут проверять мой проект?
💡 Если вашу работу отправили на доработку, пожалуйста, не удаляйте в Jupyter-тетрадке комментарии ревьюера. Так ревьюеру будет проще проверить изменения.
Мы подготовили критерии оценки проекта. Прежде чем решать кейс, внимательно изучите их.
На что обращают внимание ревьюеры, когда проверяют ваш проект:
- Как вы описываете выявленные в данных проблемы?
- Какие способы обработки пропусков вы применяете?
- Как используете срезы данных?
- Решают ли ваши графики поставленные задачи?
- Какие методы построения графиков вы используете?
- Выводите ли вы финальные данные в сводных таблицах?
- Считаете ли показатели взаимосвязи в данных и как вы их объясняете?
- Соблюдаете ли вы структуру проекта и поддерживаете ли аккуратность кода?
- Какие выводы вы делаете?
- Оставляете ли вы комментарии к шагам?
Всё, что нужно для выполнения этого проекта, есть в шпаргалках и конспектах прошлых уроков.
Успехов!
Следующая тема: ИАД. Первые графики и выводы
Вернуться в раздел: Исследовательский анализ данных
Вернуться в оглавление: Я.Практикум