В настоящее время я изучаю распределенные системы обработки потоков, например. Storm, Flink и Spark Streaming. Я хочу реализовать некоторые приложения в этих системах и кратко сравнить их. Интересно, есть ли какая-либо компания, использующая эти системы для обработки следующих ситуаций и каков масштаб потока данных.
График, где большой граф может быть распределен на несколько компьютеров, и мы обрабатываем некоторые обновления (добавление или удаление вершин или ребер) и запросы к графу. Пока я могу найти только некоторые алгоритмы потокового графа на одной машине.
Транзакция, где требуется однократная доставка сообщения. В S-Store существует Эталон обслуживания таблицы лидеров (Михан, Джон и др. "S-store: потоковая передача и обработка транзакций". Proceedings of the VLDB Endowment 8.13 (2015): 2134-2145). но я не могу найти, как они генерировали входные данные.