Я хотел бы периодически (ежечасно) загружать журналы приложений в Cassandra для анализа с помощью pig.
Как это обычно делается? Есть ли проекты, посвященные этому?
Я вижу, что mumakil обычно используется для массовой загрузки данных. Я мог бы написать задание cron, построенное вокруг этого, но надеялся на что-то более надежное, чем задание, которое я бы сделал на скорую руку.
Я также готов модифицировать приложения для хранения данных в другом формате (например, в системном журнале или непосредственно в Cassandra), если это предпочтительнее. Хотя в этом случае я бы беспокоился о потере данных, если Кассандра будет недоступна.