Следующая тема: ПД. Проектная работа. Исследование надёжности заёмщиков

Вернуться к разделу: "Предобработка данных"

Вернуться в оглавление: Я.Практикум

1.Природа ошибок
 

Вам дали данные с ошибками. Неплохо!

Если большинство воспринимает ошибки как нечто фатальное, аналитик, напротив, стремится их найти. Для него каждая ошибка — источник информации, возможность узнать тайны, скрытые в данных.

Ошибка — это явление в данных, которое не позволяет применить к ним стандартные способы обработки и анализа.

Например:

  • некоторые значения в таблице пропущены,
  • в одной колонке с категориальными переменными стоят количественные.

Главная цель этой темы — тренировать системное и критическое мышление применительно к анализу данных.

Примечательно, что собственные ошибки считают чем-то «постыдным». Профессиональный аналитик умеет признавать их и даже просит коллег указать ему, где он ошибся. Об этом мы поговорим в отдельном уроке. Избегание ошибок и неумение учиться на них — одно из главных препятствий в развитии джуниор-аналитика.

2.Системное мышление в поиске данных

Любой язык, программирования или человеческий — это система. Зная, как она устроена, можно понять, какие данные в сообщении пропущены.

Возьмём предложение: «Обещают дождь». Оно состоит из сказуемого («обещают») и дополнения («дождь»). Чувствуете, сколько всего недостаёт:

  • Кто обещает дождь?
  • Где обещают дождь?
  • Когда обещают дождь?
  • Какой дождь?
  • ...

Само строение фразы, которую нам сообщили, подразумевает, что нужно искать дополнительную информацию. Если вы говорите на любом из человеческих языков, у вас уже есть привычка искать дополнительную информацию. Если вы планируете работать с данными, вам важно развить эту привычку и превратить её в профессиональный навык.

Аналитическая работа в любой компании — часть системы самого бизнеса. Каждая «рядовая» задача джуниор-аналитика — часть большей системы задач всего отдела. Если ясно понимать, какое место в системе занимает эта задача, можно быстро найти к ней подход.

Система — это не только прямая, но и обратная связь. В анализе данных системное мышление требует не только добыть как можно больше нужной информации, но и сообщить всё полезное, что вам известно по проблемам, которые ставят коллеги.

Подводя итог:

  • Неполнота данных подстерегает вас не только в таблицах, но и в профессиональном общении.
  • Нужно уметь находить недостающие данные, задавая вопросы.
  • Поставленную задачу надо видеть системно, тогда вы сформулируете правильные вопросы:
    • о самих данных,
    • о конечном результате, которого от вас ожидают. Подробнее об этом см. книгу Джозефа О'Коннора «Искусство системного мышления».

3.Чем вызваны ошибки в данных

Никто не вносит ошибки в набор данных умышленно. Пропуски, дубликаты и неверные значения всплывают не просто так, а по каким-то причинам — их надо устанавливать и разбираться.

Ошибки делятся на две большие группы: те, что возникли по технологическим причинам, и вызванные человеческим фактором.

Технологические ошибки возникают при копировании, считывании, смене формата. Сбой может произойти даже во время записи данных.

Например, изучая try-except, вы столкнулись с технологическими ошибками:

position = [
['2019-05-01', '- 6'],
['2019-05-02', '+5'],
['2019-05-03', ' 5'],
['2019-05-04', '4'],
['2019-05-05', '5'],
['2019-05-06', '5'],
['2019-05-07', '4'],
['2019-05-08', 'Error 5'],
['2019-05-09', '3'],
['2019-05-10', '3'],
] 

Люди ошибаются и делают это постоянно. Дайте человеку возможность ввести данные, и он обязательно даст промашку: опечатается в тексте, укажет другой порядок величин, перепутает числа или категориальные значения. Эти ошибки вызваны человеческим фактором.

Не укажете, как именно заполнять поля в форме регистрации, получите ошибки: пустое значение или буквы вместо возраста, а телефон — вместо email.

Увидели пропуск — подумайте, нормально ли это. Сколько вообще пропусков может быть в этом столбце? К примеру, в списке с электронными адресами пользователей, согласных на рассылку, будет много пропусков. Далеко не все предоставляют email.

Если обнаружили проблему, надо точно понимать, кому именно о ней сообщать.

Чтобы ошибки не повторялись, утвердите регламент выгрузки данных с коллегами. Все следуют договорённостям, а проблемы всё же возникают? Значит, причина не в «кривой» выгрузке. Скорее всего, вы столкнулись с технологической ошибкой

Разработчик прислал файл с ошибками. Снова. Что делать?

Написать докладную генеральному директору компании. Пусть разработчик знает, что с вами шутки плохи.

Правильный ответ:

Завести задачу в среде для совместной работы и тегнуть того разработчика, который прислал исходный файл. Верно. Нужно все-таки добиться решения задачи и получить корректные данные. Правила хорошего тона предписывают оставлять цифровой след в работе с коллегами. Так новые сотрудники смогут понять, чем вы занимались.

Опубликовать пост в соцсетях, где вы с доброй иронией отзываетесь о некачественной работе коллег. Помнить о конфиденциальности: поменять минимум по одной букве в именах этих малоквалифицированных как-бы-разработчиков.

Громко и прилюдно отчитать коллегу на кофепойнте. Говорить как можно более темпераментно и хлёстко, демонстрировать своё усердие. Когда все всё забудут, извиниться перед коллегой за излишнюю горячность. Помнить о конфиденциальности: просить прощения строго наедине и вне офиса.

4.Критическое мышление

5.Что делать со своими ошибками?

Если вы часто ошибаетесь, воспринимайте задания как эксперименты, где любой результат (верный и неверный) развивает вас как профессионала.

Что это означает?

  • Пробуйте разные способы решения;
  • Открыто и подробно рассказывайте, что и как у вас не получается, в канале для коммуникации с преподавателем;
  • Не стесняйтесь просить совета или помощи.

Какой запрос соберёт больше полезных ответов?

Неудачный пример:

Кто-то ещё решил эту тупую задачу по дубликатам? Или тренажер не пашет, или условия неверные.

Удачный пример:

Я пробовал решить задачу по поиску дубликатов и использовал метод duplicated() для поиска, но в тренажере выскакивает ошибка о неполном ответе. Преподаватель, есть ли ошибка в том, как я делаю? Если да, то где она, и на что мне обратить внимание в этом задании и теме про дубликаты?

Как мы уже рассказывали, неумение признавать свои ошибки и учиться на них может стать одной из причин увольнения джуниор-аналитика. Делимся с вами проверенным алгоритмом действий:

  • Признать, что ошибка есть / что-то не сходится.
  • Четко сформулировать:
    • что и где не получается,
    • что уже было сделано,
    • как конкретно вам могут помочь.
  • Понять, кто может помочь в этой ситуации/обладать нужной информацией. Обратиться к нему. При обращении ёмко рассказать, в чем дело, и с чем конкретно нужна помощь.
  • Поблагодарить после общения.

6.Заключение

Завершая экскурс в мир экспериментов, повторим главные тезисы:

  • «Ошибка» — понятие субъективное. На деле, любой результат — это информация.
  • Системное мышление помогает осознать, что в данных есть проблемы, и быстро их найти.
  • Критическое мышление заставляет сомневаться, побуждая из возможных вариантов выбрать лучший.
  • Три этапа обработки своей ошибки:
    1. признать её;
    2. сформулировать, в чем проблема;
    3. обратиться к тому, от кого зависит решение.

На работе это коллега или руководитель, а на нашей программе — преподаватель или куратор. Пишите преподавателю в специальный канал в Пачке, а куратору лично. Вас не оставят в беде.

Следующая тема: ПД. Проектная работа. Исследование надёжности заёмщиков

Вернуться к разделу: "Предобработка данных"

Вернуться в оглавление: Я.Практикум