Урок 1

Кратко:

  • Задачи классификации и логистическая регрессия - основные темы для практики.
  • Оценка качества модели бинарной классификации и настройка под требования заказчика.+
  • Понимание влияния новых данных на модель и определение ошибо .
  • Расчет новых метрик качества моделей классифи.
  • Повышение качества уже обученнойо модели .
  • Пять уроков по 30-40.
  • Продолжение работы с классом заёмщиков "Стонкс" и решение реальных задач кредитности.
  • Сокращение издержек и повышение прибыли

Чему вы научитесь

  • понимать, как новые данные могут обогатить или ухудшить модель,
  • определять, как именно модель ошибается,
  • рассчитывать новые метрики качества моделей классификации,
  • повышать качество уже обученной модели.

Урок 2

Кратко:

  • На уроке обсуждаются логистическая регрессия и ее использование для решения задач классификации.
  • Модель логистической регрессии имеет свои ограничения и особенности.
  • Исходная задача кредитного скоринга решается с помощью машинного обучения.
  • Новые данные могут повлиять на качество модели, поэтому важно их учитывать.
  • Мультиколлинеарность может ухудшить интерпретируемость модели и снизить ее качество.
  • Разные коэффициенты корреляции могут быть использованы для анализа мультиколлинеарности.
  • Аномальные значения признаков могут сильно исказить работу модели

Задача 1

Задача 2

Задача 3

Выводы

  • Между входными признаками и целевым должна быть линейная взаимосвязь. Если новые признаки не влияют на целевой — их надо убрать.

  • Из-за мультиколлинеарности коэффициенты модели станут неустойчивы, и её будет невозможно интерпретировать. Если один или несколько признаков сильно коррелируют между собой, то нужно удалить тот, что меньше коррелирует с целевым.

  • Перед обучением линейных моделей нужно масштабировать данные. Признаки с разным масштабом создают систематические ошибки в их работе.

  • Необходимо убирать аномальные данные перед обучением модели. Модель подстраивается под выбросы, чтобы минимизировать ошибки, и из-за этого её прогностические свойства падают.

Урок 3

Кратко:

  • Метрика accuracy имеет ограничения и особенности, которые нужно учитывать при обучении на новых данных.
  • Матрица ошибок дополняет метрику accuracy и помогает анализировать долю ошибочных прогнозов у каждого класса.
  • Модель "Стонкс" выдает 32 ошибки первого рода и 55 ошибок второго рода.
  • Ошибки первого и второго родов в статистике называются ошибками первого и второго рода соответственно.
  • Матрица ошибок позволяет определить, как ошибается модель и что именно она предсказывает верно и неверно.
  • Благодаря матрице ошибок бизнесу проще заложить финансовую подушку под более серьезные риски

Задача 1

Выводы

  • Матрица ошибок — это инструмент для анализа и сравнения моделей. В отличие от метрики accuracy, он позволяет определить, как ошибается модель, что именно она предсказывает верно и неверно.
  • Матрица ошибок позволяет различать четыре вида предсказаний модели: True Positive, True Negative, False Positive и False Negative. Прогнозы False Positive называют ошибками первого рода, а False Negative — ошибками второго рода.
  • Благодаря матрице ошибок бизнесу проще заложить финансовую подушку под более серьёзные риски.

Урок 4

Кратко:

  • Матрица ошибок не заменяет метрики для оценки качества модели.
  • Precision и recall дополняют accuracy для точной оценки качества модели.
  • Precision оценивает точность, с которой модель присваивает объектам класс 1.
  • Recall измеряет, смогла ли модель классификации присвоить класс 1 всем объектам этого класса.
  • Precision и recall нужно использовать в зависимости от задачи, которую вы решаете

Задача 1

Задача 2

Выводы

  • Матрица ошибок — это не метрика в строгом смысле, поэтому accuracy дополняют два других инструмента для точной оценки качества модели — precision и recall.
  • Precision оценивает точность, с которой модель присваивает объектам класс 1. Она реагирует на ошибки первого рода, однако не реагирует на ошибки второго.
  • Recall измеряет, смогла ли модель классификации присвоить класс 1 всем объектам этого класса. Её «слепое пятно» противоположно precision: она сосредоточена на ошибках второго рода и никак не учитывает ошибки первого.
  • Precision и recall нужно использовать в зависимости от задачи, которую вы решаете. В разных ситуациях подойдёт разная метрика

Урок 5

Кратко:

  • Precision и recall измеряют качество модели по одному типу ошибок (False Positive или False Negative).
  • Валидационная выборка используется для настройки модели, тестовая - для проверки качества на реальных данных.
  • Рост качества модели достигается через настройку порога разделения на классы.
  • Пороги в задачах классификации определяют чувствительность модели и влияют на количество ошибок.
  • Минимизация ошибок False Negative может повысить качество модели и достичь поставленных бизнес-целей

Задача 1

Выводы

  • Модель классификации можно настроить с помощью изменения порогов. Это меняет чувствительность модели, из-за чего она начинает чаще классифицировать объекты каким-то из классов.
  • Эта возможность ценна с точки зрения бизнеса: она позволяет минимизировать ошибки, которые мешают достижению поставленных целей.

Урок 6

Кратко:

  • Метрики классификации и бизнес-метрики влияют на доходы и издержки бизнеса.
  • Перевод бизнес-задач на язык алгоритмов и моделей МО помогает отслеживать связь между ними.
  • Обучение модели, подбор порога и минимизация убытков агентства являются этапами решения задачи на языке машинного обучения.
  • Модель, обученная на данных о клиенте, предсказывающих дефолт, может минимизировать убытки агентства.
  • Подбор порога минимизирует риски кредитного агентства и позволяет сэкономить средства.
  • Сравнение результатов работы модели на валидационной выборке с полученными без неё предсказаниями доказывает эффективность внедрения модели.
  • Модели машинного обучения упрощают принятие решений для бизнеса и экономят средства

Выводы

  • Бизнес использует МО для решения своих задач, главная из них — увеличение прибыли и сокращение издержек. Поэтому дата сайентист должен не только замерять качество работы модели, но и анализировать, как оно связано с бизнес-метриками.
  • Модели машинного обучения сильно упрощают принятие решений для бизнеса. На примере задачи из урока видно, какой большой бывает разница между решением модели классификации и случайным решением

Урок 7

Кратко:

  • Пройдены все материалы курса о задачах классификации.
  • Учитываются сильные и слабые стороны модели линейных моделей.
  • Определяется, как модель ошибается.
  • Применяются новые метрики: Precision и Recall.
  • Изменяется качество модели с помощью порогов.
  • Заключительная тема: этапы разработки модели машинного обучения

Чему вы научились

  • Учитывать сильные и слабые стороны модели линейных моделей. Теперь вы знаете, что перед обучением нужно изучить корреляции между целевым и входными признаками, проверить признаки на мультиколлинеарность и очистить данные от выбросов.
  • Определять, как именно модель ошибается. Accuracy оценивает только общую точность модели, но этого бывает мало. Иногда важнее найти, какой класс модель предсказывает хуже, чем другой.
  • Применять новые метрики. Precision показывает, насколько хорошо модель присваивает класс 1, а Recall проверяет, как много объектов класса 1 она смогла правильно определить.
  • Изменять качество модели при помощи порогов. Если вы знаете, какой класс выгоднее предсказать или какой ошибки лучше избегать, то можете с помощью подбора порога классификации настроить модель под ваши цели.