Кратко:

  • Yandex Data Proc автоматизирует создание кластеров Hadoop и Spark, настройку сети, установку ПО и обновление.
  • Сервис интегрируется с другими сервисами Yandex Cloud и автоматически масштабирует ресурсы.
  • В кластер Data Proc входят Tez, Spark, Hive, ZooKeeper, HBase, Sqoop, Oozie, Flume, Livy, Zeppelin.
  • Сервис интегрирован с Yandex DataSphere для разработки моделей машинного обучения.
  • Кластер Data Proc состоит из подкластеров с управляющими хостами, хостами для хранения данных и обработки данных.
  • Хранение данных осуществляется в объектном хранилище, а на вычислительных узлах хранятся только горячие данные.
  • Для работы с кластером Data Proc рекомендуется использовать два бака в объектном хранилище.
  • Все подкластеры должны находиться в одной сети, а все хосты каждого подкластера - в определённой подсети этой сети.
 
 
  • Master Node
  • Compute Node
  • Data Node