Урок 1
Кратко:
- Машинное обучение не ограничивается задачами регрессии, а включает задачи классификации.
- Примеры задач классификации: определение породы кошки по фотографии, определение языка речи по записи с диктофона, прогнозирование рисков дефолта клиента банка.
- В этой теме вы научитесь оценивать качество моделей классификации, выделять разные типы задач классификации, использовать логистическую регрессию для решения задач классификации с двумя классами и применять алгоритм «один против всех» для решения задач классификации со множеством классов.
- Тема состоит из пяти уроков по 25-35 минут каждый
Урок 2
Кратко:
- Accuracy может завышать оценку качества классификации, если объектов одного класса в несколько раз больше, чем другого
Выводы:¶
- Задача классификации — одна из самых распространённых в машинном обучении. В таких задачах целевой признак содержит категориальные данные, его значения называют классами.
- Случай с двумя классами, которые чаще всего кодируют как 0 и 1, — это бинарная классификаци я.
- Самая простая метрика качества классификации — это accurаcy, она показывает долю правильных ответов модели.
Урок 3
Кратко:
- Линейная регрессия подходит для решения задач с количественными признаками, но не идеальна для классификации.
- Логистическая регрессия лучше приспособлена для задач классификации.
- Логистическая регрессия классифицирует объекты с помощью логистической функции, преобразующей значения x в интервал от 0 до 1
- В scikit-learn логистическую регрессию строят с помощью класса LogisticRegressio n.
- Задачи классификации можно решить с помощью линейной регрессии, но это неэффективно и плохо сочетается с категориальными целевыми признаками.
- Для бинарной классификации подходит логистическая регрессия, связывающая входные признаки с целевым и вычисляющая вероятность принадлежности к каждому классу
Выводы
- Задачи классификации можно решить линейной регрессией, но это неэффективно. Эта модель плохо сочетается с категориальным целевым признаком.
- Для задач бинарной классификации подходит логистическая регрессия. С помощью логистической функции эта модель связывает входные признаки с целевым и вычисляет вероятность, с которой объект принадлежит к каждому классу.
Урок 4
Кратко:
- Логистическая регрессия используется для бинарной классификации.
- Она переводит взвешенную сумму входных признаков в промежуток от 0 до 1.
- Веса логистической функции определяются коэффициентами w_0 и w_0 .
- Логистическая регрессия минимизирует ошибки в прогнозах и улучшает метрики качества модли.
- Значения параметров подбираются автоматически по мере решения задачи классифиции.
- Одномерный случай логистической регрессии: когда у объекта только один входной признак.
- Многомерный случай логистической регрессии: когда у объекта несколько входных изнаков.
- Логистическая и линейная регрессии являются линейными моделями, основанными на регрессионном анализе
Выводы
- Логистическая регрессия «связывает» признаки объектов с оценкой принадлежности к классам с помощью коэффициентов wi
- Так она настраивается под конкретный набор данных и минимизирует ошибки в прогнозах.
- Логистическая регрессия основана на логит-функции, это позволяет ей работать с числами 0 и 1 как с метками классов.
- Вероятность принадлежности к классу превращается в отметку класса после того, как соотносится с пороговым значением модели. По умолчанию оно равно 0.5. Все оценки модели ниже порога будут отнесены к классу 0, все остальные — к классу 1.
- LogisticRegression исользует мpто predict_proba для расчёта оценок вероятности.
Урок 5
Кратко:
- Точность предсказаний логистической регрессии оценивается метрикой accuracy, но это не единственный способ проверки качества модели.
- Ошибки модели могут дорого обойтись, поэтому важно изучить другие свойства модели, чтобы понять, подходит ли она для решения конкретной задачи.
- Отношение шансов (odds) показывает, насколько событие A связано с событием B, и может быть использовано для оценки корреляции между ними.
- Метрика accuracy не учитывает тип возможных ошибок, поэтому для оценки рисков стоит обратить внимание на другие метрики и показатели модели.
- Метод логистической регрессии выявляет наиболее значимые признаки, что позволяет строго интерпретировать влияния каждого признака на работу модели.
- Значения коэффициентов в логистической регрессии определяют вклад каждого признака в выражение в левой части уравнения.
- Значения коэффициентов сложно интерпретировать из-за логарифма в формуле, но их можно экспоненциировать, чтобы получить отношение шансов ORi.
- Значения признаков измеряются по-разному, поэтому стоит привести их значения к единой шкале с помощью метода StandardScaler
Урок 6
Кратко:
- Мультиклассовая классификация - разделение объектов на несколько категорий.
- Целевой признак в мультиклассовой классификации - уникальные метки классов.
- Логистическая функция распределяет сумму весов признаков x на промежутке (0, 1), поэтому работает только с двумя классами.
- Алгоритм "один против всех" сводит мультиклассовую классификацию к бинарным классификаторам.
- Чем больше классов, тем сложнее построить хорошую мультиклассовую модель.
- Для мультиклассовой классификации не подходит алгоритм линейной регрессии, а точность оценивают метрикой accuracy.
- Один из способов решения мультиклассовой классификации - алгоритм "один против всех"
Выводы
- Задачи мультиклассовой классификации во многом похожи на задачи с двумя классами. Для них не подходит алгоритм линейной регрессии, а точность прогнозов оценивают метрикой accuracy. Однако они решаются другими способами.
- Один из них — это алгоритм «один против всех»: он применяет к данным набор бинарных классификаторов. Каждому классу соответствует свой классификатор, который предсказывает принадлежность к одному классу в противовес всем остальным.
- Чем больше классов требуется предсказать, тем сложнее осуществить мультиклассовую классификацию.
Урок 7
Кратко:
- Задачи классификации и их решение изучены.
- Оценка качества моделей метрикой accuracy.
- Обучение логистической регрессии для бинарной классификаци.
- Оценка вклада каждого признака в модель.
- Решение задач мультиклассовой классификации с использованием алгоритма "один против всех".
- Навыки, полученные в этой теме, являются фундаментом для работы с задачами классификации
Чему вы научились
- Оценивать качество моделей метрикой accuracy. Она показывает долю объектов, для которых модель смогла правильно предсказать класс.
- Обучать модели логистические регрессии. Её используют для решения задач бинарной классификации. При помощи логистической функции она «переводит» взвешенную сумму входных признаков объекта в промежуток от 0 до 1 и тем самым оценивает вероятность принадлежности к одному из классов.
- Оценивать вклад каждого признака в модель. Часто один или несколько признаков наиболее значимы для модели. Данные о весе каждого признака содержатся в атрибуте coef_ модели.
- Решать задачи мультиклассовой классификации. Для этого нужно применить к данным алгоритм «один против всех», который поочерёдно оценивает принадлежность объекта к одному из классов в противовес остальным.