Вот статья Тони Сицилиани, в которой приводится сравнение вариантов использования (и архитектуры) для Storm, Spark и Samza. Ссылки Apache.org на фактические варианты использования также приведены ниже.
https://tcicilian.wordpress.com/2015/02/16/streaming-big-data-storm-spark-and-samza/
Что касается вариантов использования Samza и Storm, он пишет:
Все три платформы особенно хорошо подходят для эффективной обработки непрерывных больших объемов данных в реальном времени. Итак, какой из них использовать? Жестких правил нет, максимум несколько общих рекомендаций.
Апач Самза
Если у вас есть большой объем состояния для работы (например, много гигабайт на раздел), Samza размещает хранилище и обработку на одних и тех же машинах, что позволяет эффективно работать с состоянием, которое не помещается в памяти. Фреймворк также предлагает гибкость благодаря подключаемому API: механизмы выполнения, обмена сообщениями и хранения по умолчанию могут быть заменены альтернативными вариантами по вашему выбору. Более того, если у вас есть несколько этапов обработки данных от разных команд с разными кодовыми базами, мелкозернистые задания Samza будут особенно хорошо подходить, поскольку их можно добавлять/удалять с минимальным эффектом ряби.
Несколько компаний, использующих Samza: LinkedIn, Intuit, Metamarkets, Quantiply, Fortscale…
Список вариантов использования Samza: https://cwiki.apache.org/confluence/display/SAMZA/Powered+By
Апач Шторм
Если вам нужна высокоскоростная система обработки событий, позволяющая выполнять инкрементные вычисления, Storm подойдет для этого. Если вам в дальнейшем потребуется выполнять распределенные вычисления по запросу, в то время как клиент синхронно ожидает результатов, у вас будет готовый распределенный RPC (DRPC). И последнее, но не менее важное: поскольку Storm использует Apache Thrift, вы можете писать топологии на любом языке программирования. Однако, если вам нужна сохраняемость состояния и/или однократная доставка, вам следует обратить внимание на высокоуровневый API Trident, который также предлагает микропакетную обработку.
Несколько компаний, использующих Storm: Twitter, Yahoo!, Spotify, The Weather Channel…
Список вариантов использования Storm: http://storm.apache.org/documentation/Powered-By.html
person
Grokify
schedule
21.03.2015