В настоящее время:
В Spark Structured Streaming все еще используются микропакеты в фоновом режиме. Однако он поддерживает обработку во время события, довольно низкую задержку (но не такую низкую, как Flink), поддерживает SQL и типобезопасные запросы к потокам в одном API; без разницы, каждый набор данных можно запрашивать как с помощью SQL, так и с помощью операторов безопасного типа. У него сквозная ровно одна семантика (по крайней мере, они так говорят;)). Пропускная способность лучше, чем в Flink (были тесты с разными результатами, но посмотрите публикация Databricks о результатах).
В ближайшем будущем:
Режим непрерывной обработки Spark находится в процессе, и он дает задержку Spark ~ 1 мс, сравнимую с таковой у Flink. Однако, как я уже сказал, он все еще продолжается. API готов для не-пакетных заданий, поэтому это проще сделать, чем в предыдущей потоковой передаче Spark.
Основное отличие:
Spark теперь полагается на микропакетирование, а у Flink есть заранее запланированные операторы. Это означает, что задержка Flink ниже, но Spark Community работает в режиме непрерывной обработки, который будет работать аналогично (насколько я понимаю) приемникам.
person
T. Gawęda
schedule
01.09.2017