Спринт 18/24 → Тема 1/5: Введение → Урок 1/2

Кратко:
  • Машинное обучение для текстов: задачи классификации и регрессии, преобразование текстов в табличные данные.
  •  
  • Анализ текстов помогает компаниям оценить отношение к бренду и узнать, какой контент может понравиться потребителям.
  • Изучение курса начинается с алгоритмов извлечения признаков из текстов, мешка слов и N-грамм.
  • Обучение логистической регрессии для определения тональности текста.
  • Знакомство с языковыми представлениями, использование word2vec и BERT.
  • Применение обученных языковых моделей BERT в задаче классификации.
  • Проект по классификации текстов в конце курса.
  • Курс "Английский для аналитиков" от Яндекс Практикума для улучшения общения и работы в англоязычной среде.

Спринт 18/24 → Тема 1/5: Введение → Урок 2/2

Кратко:
  • Интернет-магазин Викишоп запускает новый сервис для редактирования и дополнения описаний товаров.
  • Клиенты предлагают правки и комментируют изменения других пользователей.
  • Магазину нужен инструмент для поиска токсичных комментариев и их модерации.
  • Задача: обучить модель классифицировать комментарии на позитивные и негативные.
  • Инструкция для проекта: выполнить проект локально или в тренажёре.
  • Данные: файл /datasets/toxic_comments.csv, содержащий текст комментария и целевой признак.
  • Критерии оценки проекта: выполнение всех шагов инструкции, подготовка данных, использование разных моделей и гиперпараметров, аккуратность кода.
  • Шпаргалки и конспекты прошлых тем содержат необходимую информацию для успешного выполнения проекта.
 

Проектная работа

Ознакомьтесь с проектом, который нужно выполнить в конце курса.

Описание проекта

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Инструкция для проекта

  1. Загрузите и подготовьте данные.
  2. Обучите разные модели.
  3. Сделайте выводы.

Описание данных

Данные находятся в файле /datasets/toxic_comments.csv. Скачать датасет.

Столбец text в нём содержит текст комментария, а toxic — целевой признак.

Как будут проверять проект?

Мы подготовили критерии оценки проекта, которыми руководствуются ревьюеры. Прежде чем приступить к решению кейса, внимательно их изучите.

На что обращают внимание ревьюеры, проверяя проект:

  • Все ли шаги по инструкции выполняете?
  • Как готовите данные?
  • Какие модели и гиперпараметры рассматриваете?
  • Не дублируете ли код?
  • Какие выводы делаете?
  • Следите ли за структурой проекта?
  • Поддерживаете аккуратность кода?

Всё, что вам нужно знать, есть в шпаргалках и конспектах прошлых тем. Успеха!