Урок 1

Кратко:

  • Машинное обучение не ограничивается задачами регрессии, а включает задачи классификации.
  • Примеры задач классификации: определение породы кошки по фотографии, определение языка речи по записи с диктофона, прогнозирование рисков дефолта клиента банка.
  • В этой теме вы научитесь оценивать качество моделей классификации, выделять разные типы задач классификации, использовать логистическую регрессию для решения задач классификации с двумя классами и применять алгоритм «один против всех» для решения задач классификации со множеством классов.
  • Тема состоит из пяти уроков по 25-35 минут каждый

Урок 2

Кратко:

  • Accuracy может завышать оценку качества классификации, если объектов одного класса в несколько раз больше, чем другого

Задача 1

Выводы:

  • Задача классификации — одна из самых распространённых в машинном обучении. В таких задачах целевой признак содержит категориальные данные, его значения называют классами.
  • Случай с двумя классами, которые чаще всего кодируют как 0 и 1, — это бинарная классификаци я.
  • Самая простая метрика качества классификации — это accurаcy, она показывает долю правильных ответов модели.

Урок 3

Кратко:

  • Линейная регрессия подходит для решения задач с количественными признаками, но не идеальна для классификации.
  • Логистическая регрессия лучше приспособлена для задач классификации.
  • Логистическая регрессия классифицирует объекты с помощью логистической функции, преобразующей значения x в интервал от 0 до 1
  • В scikit-learn логистическую регрессию строят с помощью класса LogisticRegressio n.
  • Задачи классификации можно решить с помощью линейной регрессии, но это неэффективно и плохо сочетается с категориальными целевыми признаками.
  • Для бинарной классификации подходит логистическая регрессия, связывающая входные признаки с целевым и вычисляющая вероятность принадлежности к каждому классу

Задача 1

Задача 2

Выводы

  • Задачи классификации можно решить линейной регрессией, но это неэффективно. Эта модель плохо сочетается с категориальным целевым признаком.
  • Для задач бинарной классификации подходит логистическая регрессия. С помощью логистической функции эта модель связывает входные признаки с целевым и вычисляет вероятность, с которой объект принадлежит к каждому классу.

Урок 4

Кратко:

  • Логистическая регрессия используется для бинарной классификации.
  • Она переводит взвешенную сумму входных признаков в промежуток от 0 до 1.
  • Веса логистической функции определяются коэффициентами w_0 и w_0 .
  • Логистическая регрессия минимизирует ошибки в прогнозах и улучшает метрики качества модли.
  • Значения параметров подбираются автоматически по мере решения задачи классифиции.
  • Одномерный случай логистической регрессии: когда у объекта только один входной признак.
  • Многомерный случай логистической регрессии: когда у объекта несколько входных изнаков.
  • Логистическая и линейная регрессии являются линейными моделями, основанными на регрессионном анализе

Задача 1

Выводы

  • Логистическая регрессия «связывает» признаки объектов с оценкой принадлежности к классам с помощью коэффициентов wi
  • Так она настраивается под конкретный набор данных и минимизирует ошибки в прогнозах.
  • Логистическая регрессия основана на логит-функции, это позволяет ей работать с числами 0 и 1 как с метками классов.
  • Вероятность принадлежности к классу превращается в отметку класса после того, как соотносится с пороговым значением модели. По умолчанию оно равно 0.5. Все оценки модели ниже порога будут отнесены к классу 0, все остальные — к классу 1.
  • LogisticRegression исользует мpто predict_proba для расчёта оценок вероятности.

Урок 5

Кратко:

  • Точность предсказаний логистической регрессии оценивается метрикой accuracy, но это не единственный способ проверки качества модели.
  • Ошибки модели могут дорого обойтись, поэтому важно изучить другие свойства модели, чтобы понять, подходит ли она для решения конкретной задачи.
  • Отношение шансов (odds) показывает, насколько событие A связано с событием B, и может быть использовано для оценки корреляции между ними.
  • Метрика accuracy не учитывает тип возможных ошибок, поэтому для оценки рисков стоит обратить внимание на другие метрики и показатели модели.
  • Метод логистической регрессии выявляет наиболее значимые признаки, что позволяет строго интерпретировать влияния каждого признака на работу модели.
  • Значения коэффициентов в логистической регрессии определяют вклад каждого признака в выражение в левой части уравнения.
  • Значения коэффициентов сложно интерпретировать из-за логарифма в формуле, но их можно экспоненциировать, чтобы получить отношение шансов ORi.
  • Значения признаков измеряются по-разному, поэтому стоит привести их значения к единой шкале с помощью метода StandardScaler

Задача 1

Урок 6

Кратко:

  • Мультиклассовая классификация - разделение объектов на несколько категорий.
  • Целевой признак в мультиклассовой классификации - уникальные метки классов.
  • Логистическая функция распределяет сумму весов признаков x на промежутке (0, 1), поэтому работает только с двумя классами.
  • Алгоритм "один против всех" сводит мультиклассовую классификацию к бинарным классификаторам.
  • Чем больше классов, тем сложнее построить хорошую мультиклассовую модель.
  • Для мультиклассовой классификации не подходит алгоритм линейной регрессии, а точность оценивают метрикой accuracy.
  • Один из способов решения мультиклассовой классификации - алгоритм "один против всех"

Задача 1

Выводы

  • Задачи мультиклассовой классификации во многом похожи на задачи с двумя классами. Для них не подходит алгоритм линейной регрессии, а точность прогнозов оценивают метрикой accuracy. Однако они решаются другими способами.
  • Один из них — это алгоритм «один против всех»: он применяет к данным набор бинарных классификаторов. Каждому классу соответствует свой классификатор, который предсказывает принадлежность к одному классу в противовес всем остальным.
  • Чем больше классов требуется предсказать, тем сложнее осуществить мультиклассовую классификацию.

Урок 7

Кратко:

  • Задачи классификации и их решение изучены.
  • Оценка качества моделей метрикой accuracy.
  • Обучение логистической регрессии для бинарной классификаци.
  • Оценка вклада каждого признака в модель.
  • Решение задач мультиклассовой классификации с использованием алгоритма "один против всех".
  • Навыки, полученные в этой теме, являются фундаментом для работы с задачами классификации

Чему вы научились

  • Оценивать качество моделей метрикой accuracy. Она показывает долю объектов, для которых модель смогла правильно предсказать класс.
  • Обучать модели логистические регрессии. Её используют для решения задач бинарной классификации. При помощи логистической функции она «переводит» взвешенную сумму входных признаков объекта в промежуток от 0 до 1 и тем самым оценивает вероятность принадлежности к одному из классов.
  • Оценивать вклад каждого признака в модель. Часто один или несколько признаков наиболее значимы для модели. Данные о весе каждого признака содержатся в атрибуте coef_ модели.
  • Решать задачи мультиклассовой классификации. Для этого нужно применить к данным алгоритм «один против всех», который поочерёдно оценивает принадлежность объекта к одному из классов в противовес остальным.