Спринт 18/24 → Тема 1/5: Введение → Урок 1/2
- Машинное обучение для текстов: задачи классификации и регрессии, преобразование текстов в табличные данные.
- Анализ текстов помогает компаниям оценить отношение к бренду и узнать, какой контент может понравиться потребителям.
- Изучение курса начинается с алгоритмов извлечения признаков из текстов, мешка слов и N-грамм.
- Обучение логистической регрессии для определения тональности текста.
- Знакомство с языковыми представлениями, использование word2vec и BERT.
- Применение обученных языковых моделей BERT в задаче классификации.
- Проект по классификации текстов в конце курса.
- Курс "Английский для аналитиков" от Яндекс Практикума для улучшения общения и работы в англоязычной среде.
Спринт 18/24 → Тема 1/5: Введение → Урок 2/2
- Интернет-магазин Викишоп запускает новый сервис для редактирования и дополнения описаний товаров.
- Клиенты предлагают правки и комментируют изменения других пользователей.
- Магазину нужен инструмент для поиска токсичных комментариев и их модерации.
- Задача: обучить модель классифицировать комментарии на позитивные и негативные.
- Инструкция для проекта: выполнить проект локально или в тренажёре.
- Данные: файл /datasets/toxic_comments.csv, содержащий текст комментария и целевой признак.
- Критерии оценки проекта: выполнение всех шагов инструкции, подготовка данных, использование разных моделей и гиперпараметров, аккуратность кода.
- Шпаргалки и конспекты прошлых тем содержат необходимую информацию для успешного выполнения проекта.
Проектная работа
Ознакомьтесь с проектом, который нужно выполнить в конце курса.
Описание проекта
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.
Инструкция для проекта
- Загрузите и подготовьте данные.
- Обучите разные модели.
- Сделайте выводы.
Описание данных
Данные находятся в файле /datasets/toxic_comments.csv
. Скачать датасет.
Столбец text в нём содержит текст комментария, а toxic — целевой признак.
Как будут проверять проект?
Мы подготовили критерии оценки проекта, которыми руководствуются ревьюеры. Прежде чем приступить к решению кейса, внимательно их изучите.
На что обращают внимание ревьюеры, проверяя проект:
- Все ли шаги по инструкции выполняете?
- Как готовите данные?
- Какие модели и гиперпараметры рассматриваете?
- Не дублируете ли код?
- Какие выводы делаете?
- Следите ли за структурой проекта?
- Поддерживаете аккуратность кода?
Всё, что вам нужно знать, есть в шпаргалках и конспектах прошлых тем. Успеха!