Кратко:

  • Большие данные - это данные, размер которых увеличивается на 100 ГБ в день или более.
  • Источники больших данных: социальные сети, сайты, СМИ, интернет вещей с миллионами датчиков.
  • Большие данные активно используются в государственном управлении и бизнесе.
  • Распределенное хранение и обработка данных, горизонтальная масштабируемость и отказоустойчивость необходимы для работы с большими данными в реальном времени.
  • Apache Hadoop - первая широко распространенная технология хранения и обработки больших данных.
  • Apache Spark - популярный фреймворк для распределенной потоковой обработки данных.
  • Spark хранит результаты промежуточных вычислений в памяти, что дает прирост в производительности.
  • Spark подходит для анализа потоковых данных в реальном времени, решения задач с параллельными операциями и машинного обучения.
  • Hadoop подходит для обработки больших наборов данных, создания инфраструктуры анализа данных и пакетной обработки данных.
 

Apache Spark

 
 
  • Spark