Тестовый пример: подсчет слов в данных 6G за 20+ секунд с помощью Spark.
Я понимаю модели программирования MapReduce, FP и stream, но не мог понять, что подсчет слов происходит так быстро.
Я думаю, что в данном случае это интенсивные вычисления ввода-вывода, и невозможно сканировать файлы 6G за 20 с лишним секунд. Я предполагаю, что индекс выполняется до подсчета слов, как это делает Lucene. Магия должна быть в дизайне RDD (Resilient Distributed Datasets), который я недостаточно хорошо понимаю.
Я признателен, если кто-нибудь может объяснить RDD для случая подсчета слов. Спасибо!