Кратко:

  • Подключение к кластеру Hadoop с помощью виртуальной машины в Yandex Cloud.
  • Использование SSH для подключения к хостам главного подкластера.
  • Получение внутреннего FQDN хоста главного подкластера и подключение к нему с помощью SSH.
  • Запуск заданий Apache Hive для работы с данными в распределенном хранилище.
  • Создание внешней таблицы в формате Parquet с данными о перелетах между городами США в 2018 году.
  • Запрос числа перелетов с разбивкой по месяцам с использованием SQL-подобного языка запросов Hive.
  • Возможность просмотра докладов сотрудников Yandex Cloud о работе с большими данными в облаке на YouTube-канале Yandex Cloud.
 
Вы должны получить примерно такой результат.