Следующая тема: ПД. Проектная работа. Исследование надёжности заёмщиков
Вернуться к разделу: "Предобработка данных"
Вернуться в оглавление: Я.Практикум
Вам дали данные с ошибками. Неплохо!
Если большинство воспринимает ошибки как нечто фатальное, аналитик, напротив, стремится их найти. Для него каждая ошибка — источник информации, возможность узнать тайны, скрытые в данных.
Ошибка — это явление в данных, которое не позволяет применить к ним стандартные способы обработки и анализа.
Например:
- некоторые значения в таблице пропущены,
- в одной колонке с категориальными переменными стоят количественные.
Главная цель этой темы — тренировать системное и критическое мышление применительно к анализу данных.
Примечательно, что собственные ошибки считают чем-то «постыдным». Профессиональный аналитик умеет признавать их и даже просит коллег указать ему, где он ошибся. Об этом мы поговорим в отдельном уроке. Избегание ошибок и неумение учиться на них — одно из главных препятствий в развитии джуниор-аналитика.
2.Системное мышление в поиске данных
Любой язык, программирования или человеческий — это система. Зная, как она устроена, можно понять, какие данные в сообщении пропущены.
Возьмём предложение: «Обещают дождь». Оно состоит из сказуемого («обещают») и дополнения («дождь»). Чувствуете, сколько всего недостаёт:
- Кто обещает дождь?
- Где обещают дождь?
- Когда обещают дождь?
- Какой дождь?
- ...
Само строение фразы, которую нам сообщили, подразумевает, что нужно искать дополнительную информацию. Если вы говорите на любом из человеческих языков, у вас уже есть привычка искать дополнительную информацию. Если вы планируете работать с данными, вам важно развить эту привычку и превратить её в профессиональный навык.
Аналитическая работа в любой компании — часть системы самого бизнеса. Каждая «рядовая» задача джуниор-аналитика — часть большей системы задач всего отдела. Если ясно понимать, какое место в системе занимает эта задача, можно быстро найти к ней подход.
Система — это не только прямая, но и обратная связь. В анализе данных системное мышление требует не только добыть как можно больше нужной информации, но и сообщить всё полезное, что вам известно по проблемам, которые ставят коллеги.
Подводя итог:
- Неполнота данных подстерегает вас не только в таблицах, но и в профессиональном общении.
- Нужно уметь находить недостающие данные, задавая вопросы.
- Поставленную задачу надо видеть системно, тогда вы сформулируете правильные вопросы:
- о самих данных,
- о конечном результате, которого от вас ожидают. Подробнее об этом см. книгу Джозефа О'Коннора «Искусство системного мышления».
3.Чем вызваны ошибки в данных
Никто не вносит ошибки в набор данных умышленно. Пропуски, дубликаты и неверные значения всплывают не просто так, а по каким-то причинам — их надо устанавливать и разбираться.
Ошибки делятся на две большие группы: те, что возникли по технологическим причинам, и вызванные человеческим фактором.
Технологические ошибки возникают при копировании, считывании, смене формата. Сбой может произойти даже во время записи данных.
Например, изучая try-except, вы столкнулись с технологическими ошибками:
position = [
['2019-05-01', '- 6'],
['2019-05-02', '+5'],
['2019-05-03', ' 5'],
['2019-05-04', '4'],
['2019-05-05', '5'],
['2019-05-06', '5'],
['2019-05-07', '4'],
['2019-05-08', 'Error 5'],
['2019-05-09', '3'],
['2019-05-10', '3'],
]
Люди ошибаются и делают это постоянно. Дайте человеку возможность ввести данные, и он обязательно даст промашку: опечатается в тексте, укажет другой порядок величин, перепутает числа или категориальные значения. Эти ошибки вызваны человеческим фактором.
Не укажете, как именно заполнять поля в форме регистрации, получите ошибки: пустое значение или буквы вместо возраста, а телефон — вместо email.
Увидели пропуск — подумайте, нормально ли это. Сколько вообще пропусков может быть в этом столбце? К примеру, в списке с электронными адресами пользователей, согласных на рассылку, будет много пропусков. Далеко не все предоставляют email.
Если обнаружили проблему, надо точно понимать, кому именно о ней сообщать.
Чтобы ошибки не повторялись, утвердите регламент выгрузки данных с коллегами. Все следуют договорённостям, а проблемы всё же возникают? Значит, причина не в «кривой» выгрузке. Скорее всего, вы столкнулись с технологической ошибкой
Разработчик прислал файл с ошибками. Снова. Что делать?
Написать докладную генеральному директору компании. Пусть разработчик знает, что с вами шутки плохи.
Правильный ответ:
Завести задачу в среде для совместной работы и тегнуть того разработчика, который прислал исходный файл. Верно. Нужно все-таки добиться решения задачи и получить корректные данные. Правила хорошего тона предписывают оставлять цифровой след в работе с коллегами. Так новые сотрудники смогут понять, чем вы занимались.
Опубликовать пост в соцсетях, где вы с доброй иронией отзываетесь о некачественной работе коллег. Помнить о конфиденциальности: поменять минимум по одной букве в именах этих малоквалифицированных как-бы-разработчиков.
Громко и прилюдно отчитать коллегу на кофепойнте. Говорить как можно более темпераментно и хлёстко, демонстрировать своё усердие. Когда все всё забудут, извиниться перед коллегой за излишнюю горячность. Помнить о конфиденциальности: просить прощения строго наедине и вне офиса.
4.Критическое мышление
Критическое мышление нужно аналитику, чтобы ставить под сомнение исходные данные и перепроверять свою работу.
Задача
Два блогера спорят в баре.
Первый: «А вы знаете три самые распространённые в мире фамилии?» (он вычитал ответ в популярном паблике)
После нескольких неудачных попыток угадать он даёт верный ответ: «Ли! Потом Чжан и Ван. В мире более 100 миллионов Ли».
Второй оппонирует: «Да быть не может! Тогда в среднем 13 человек из 1000 должны обладать такой фамилией. У меня больше 3000 друзей в фейсбуке, и ни одного Ли!»
Где закралась ошибка?
Второй неправильно посчитал. У него проблемы с арифметикой.
Правильный ответ:
Список фейсбучных друзей второго блогера — не показательный. Да, ошибка здесь: напрасно второй блогер счёл список своих друзей репрезентативной выборкой.
Первый напутал. У вас среди пары тысяч друзей в соцсетях тоже ни одного Ли, а вот людей с фамилией, скажем, Смит — 3 или 4 человека.
Нельзя верить паблику, мало ли что напишут ради хайпа.
Не надо воспринимать критическое мышление как склонность заведомо отрицать любые «странные» факты, которые стали вам известны. Нужно уметь различать маловероятное и невозможное. Если вы хотите разобраться, как этого достичь, ознакомьтесь с теорией Нассима Талеба о «чёрных лебедях». А ещё лучше, прочитайте его книгу, которая так и называется.
5.Что делать со своими ошибками?
Если вы часто ошибаетесь, воспринимайте задания как эксперименты, где любой результат (верный и неверный) развивает вас как профессионала.
Что это означает?
- Пробуйте разные способы решения;
- Открыто и подробно рассказывайте, что и как у вас не получается, в канале для коммуникации с преподавателем;
- Не стесняйтесь просить совета или помощи.
Какой запрос соберёт больше полезных ответов?
Неудачный пример:
Кто-то ещё решил эту тупую задачу по дубликатам? Или тренажер не пашет, или условия неверные.
Удачный пример:
Я пробовал решить задачу по поиску дубликатов и использовал метод duplicated() для поиска, но в тренажере выскакивает ошибка о неполном ответе. Преподаватель, есть ли ошибка в том, как я делаю? Если да, то где она, и на что мне обратить внимание в этом задании и теме про дубликаты?
Как мы уже рассказывали, неумение признавать свои ошибки и учиться на них может стать одной из причин увольнения джуниор-аналитика. Делимся с вами проверенным алгоритмом действий:
- Признать, что ошибка есть / что-то не сходится.
- Четко сформулировать:
- что и где не получается,
- что уже было сделано,
- как конкретно вам могут помочь.
- Понять, кто может помочь в этой ситуации/обладать нужной информацией. Обратиться к нему. При обращении ёмко рассказать, в чем дело, и с чем конкретно нужна помощь.
- Поблагодарить после общения.
6.Заключение
Завершая экскурс в мир экспериментов, повторим главные тезисы:
- «Ошибка» — понятие субъективное. На деле, любой результат — это информация.
- Системное мышление помогает осознать, что в данных есть проблемы, и быстро их найти.
- Критическое мышление заставляет сомневаться, побуждая из возможных вариантов выбрать лучший.
- Три этапа обработки своей ошибки:
- признать её;
- сформулировать, в чем проблема;
- обратиться к тому, от кого зависит решение.
На работе это коллега или руководитель, а на нашей программе — преподаватель или куратор. Пишите преподавателю в специальный канал в Пачке, а куратору лично. Вас не оставят в беде.
Следующая тема: ПД. Проектная работа. Исследование надёжности заёмщиков
Вернуться к разделу: "Предобработка данных"
Вернуться в оглавление: Я.Практикум