Урок 1
Кратко:
- Задачи классификации и логистическая регрессия - основные темы для практики.
- Оценка качества модели бинарной классификации и настройка под требования заказчика.+
- Понимание влияния новых данных на модель и определение ошибо .
- Расчет новых метрик качества моделей классифи.
- Повышение качества уже обученнойо модели .
- Пять уроков по 30-40.
- Продолжение работы с классом заёмщиков "Стонкс" и решение реальных задач кредитности.
- Сокращение издержек и повышение прибыли
Чему вы научитесь¶
- понимать, как новые данные могут обогатить или ухудшить модель,
- определять, как именно модель ошибается,
- рассчитывать новые метрики качества моделей классификации,
- повышать качество уже обученной модели.
Урок 2
Кратко:
- На уроке обсуждаются логистическая регрессия и ее использование для решения задач классификации.
- Модель логистической регрессии имеет свои ограничения и особенности.
- Исходная задача кредитного скоринга решается с помощью машинного обучения.
- Новые данные могут повлиять на качество модели, поэтому важно их учитывать.
- Мультиколлинеарность может ухудшить интерпретируемость модели и снизить ее качество.
- Разные коэффициенты корреляции могут быть использованы для анализа мультиколлинеарности.
- Аномальные значения признаков могут сильно исказить работу модели
Выводы¶
-
Между входными признаками и целевым должна быть линейная взаимосвязь. Если новые признаки не влияют на целевой — их надо убрать.
-
Из-за мультиколлинеарности коэффициенты модели станут неустойчивы, и её будет невозможно интерпретировать. Если один или несколько признаков сильно коррелируют между собой, то нужно удалить тот, что меньше коррелирует с целевым.
-
Перед обучением линейных моделей нужно масштабировать данные. Признаки с разным масштабом создают систематические ошибки в их работе.
-
Необходимо убирать аномальные данные перед обучением модели. Модель подстраивается под выбросы, чтобы минимизировать ошибки, и из-за этого её прогностические свойства падают.
Урок 3
Кратко:
- Метрика accuracy имеет ограничения и особенности, которые нужно учитывать при обучении на новых данных.
- Матрица ошибок дополняет метрику accuracy и помогает анализировать долю ошибочных прогнозов у каждого класса.
- Модель "Стонкс" выдает 32 ошибки первого рода и 55 ошибок второго рода.
- Ошибки первого и второго родов в статистике называются ошибками первого и второго рода соответственно.
- Матрица ошибок позволяет определить, как ошибается модель и что именно она предсказывает верно и неверно.
- Благодаря матрице ошибок бизнесу проще заложить финансовую подушку под более серьезные риски
Выводы
- Матрица ошибок — это инструмент для анализа и сравнения моделей. В отличие от метрики accuracy, он позволяет определить, как ошибается модель, что именно она предсказывает верно и неверно.
- Матрица ошибок позволяет различать четыре вида предсказаний модели: True Positive, True Negative, False Positive и False Negative. Прогнозы False Positive называют ошибками первого рода, а False Negative — ошибками второго рода.
- Благодаря матрице ошибок бизнесу проще заложить финансовую подушку под более серьёзные риски.
Урок 4
Кратко:
- Матрица ошибок не заменяет метрики для оценки качества модели.
- Precision и recall дополняют accuracy для точной оценки качества модели.
- Precision оценивает точность, с которой модель присваивает объектам класс 1.
- Recall измеряет, смогла ли модель классификации присвоить класс 1 всем объектам этого класса.
- Precision и recall нужно использовать в зависимости от задачи, которую вы решаете
Выводы
- Матрица ошибок — это не метрика в строгом смысле, поэтому accuracy дополняют два других инструмента для точной оценки качества модели — precision и recall.
- Precision оценивает точность, с которой модель присваивает объектам класс 1. Она реагирует на ошибки первого рода, однако не реагирует на ошибки второго.
- Recall измеряет, смогла ли модель классификации присвоить класс 1 всем объектам этого класса. Её «слепое пятно» противоположно precision: она сосредоточена на ошибках второго рода и никак не учитывает ошибки первого.
- Precision и recall нужно использовать в зависимости от задачи, которую вы решаете. В разных ситуациях подойдёт разная метрика
Урок 5
Кратко:
- Precision и recall измеряют качество модели по одному типу ошибок (False Positive или False Negative).
- Валидационная выборка используется для настройки модели, тестовая - для проверки качества на реальных данных.
- Рост качества модели достигается через настройку порога разделения на классы.
- Пороги в задачах классификации определяют чувствительность модели и влияют на количество ошибок.
- Минимизация ошибок False Negative может повысить качество модели и достичь поставленных бизнес-целей
Выводы¶
- Модель классификации можно настроить с помощью изменения порогов. Это меняет чувствительность модели, из-за чего она начинает чаще классифицировать объекты каким-то из классов.
- Эта возможность ценна с точки зрения бизнеса: она позволяет минимизировать ошибки, которые мешают достижению поставленных целей.
Урок 6
Кратко:
- Метрики классификации и бизнес-метрики влияют на доходы и издержки бизнеса.
- Перевод бизнес-задач на язык алгоритмов и моделей МО помогает отслеживать связь между ними.
- Обучение модели, подбор порога и минимизация убытков агентства являются этапами решения задачи на языке машинного обучения.
- Модель, обученная на данных о клиенте, предсказывающих дефолт, может минимизировать убытки агентства.
- Подбор порога минимизирует риски кредитного агентства и позволяет сэкономить средства.
- Сравнение результатов работы модели на валидационной выборке с полученными без неё предсказаниями доказывает эффективность внедрения модели.
- Модели машинного обучения упрощают принятие решений для бизнеса и экономят средства
Выводы
- Бизнес использует МО для решения своих задач, главная из них — увеличение прибыли и сокращение издержек. Поэтому дата сайентист должен не только замерять качество работы модели, но и анализировать, как оно связано с бизнес-метриками.
- Модели машинного обучения сильно упрощают принятие решений для бизнеса. На примере задачи из урока видно, какой большой бывает разница между решением модели классификации и случайным решением
Урок 7
Кратко:
- Пройдены все материалы курса о задачах классификации.
- Учитываются сильные и слабые стороны модели линейных моделей.
- Определяется, как модель ошибается.
- Применяются новые метрики: Precision и Recall.
- Изменяется качество модели с помощью порогов.
- Заключительная тема: этапы разработки модели машинного обучения
Чему вы научились
- Учитывать сильные и слабые стороны модели линейных моделей. Теперь вы знаете, что перед обучением нужно изучить корреляции между целевым и входными признаками, проверить признаки на мультиколлинеарность и очистить данные от выбросов.
- Определять, как именно модель ошибается. Accuracy оценивает только общую точность модели, но этого бывает мало. Иногда важнее найти, какой класс модель предсказывает хуже, чем другой.
- Применять новые метрики. Precision показывает, насколько хорошо модель присваивает класс 1, а Recall проверяет, как много объектов класса 1 она смогла правильно определить.
- Изменять качество модели при помощи порогов. Если вы знаете, какой класс выгоднее предсказать или какой ошибки лучше избегать, то можете с помощью подбора порога классификации настроить модель под ваши цели.