Конвейеры данных на Spark и Kubernetes

Управление зависимостями

Когда команда использует Kubernetes, каждое приложение Spark имеет собственный образ Docker, это означает, что команда может иметь полную изоляцию и полный контроль над средой. Команда может установить свою версию Spark, версию Python, зависимости, используя эту архитектуру. Эти контейнеры упаковывают код, необходимый для выполнения рабочей нагрузки, а также все зависимости, необходимые для запуска этого кода, устраняя необходимость поддерживать общую зависимость для всех рабочих нагрузок, выполняемых в общей инфраструктуре.

Динамическое автомасштабирование

Еще одна возможность с этой настройкой заключается в том, что группа может иметь приложения Spark с активированным динамическим распределением и должным сканированием в кластере. Это также приводит к лучшему управлению ресурсами, так как планировщик заботится о выборе узлов для развертывания рабочих нагрузок в сочетании с тем фактом, что в облаке масштабирование кластера вверх / вниз выполняется быстро и легко, потому что это просто вопрос добавления или удаление виртуальных машин в кластер, и у управляемых предложений Kubernetes есть помощники для этого. На практике это позволяет значительно сэкономить.

Развертывание

В современном мире гибридных облаков предприятия хотят предотвратить блокировки. Запуск Spark в Kubernetes означает однократную сборку и развертывание в любом месте, что обеспечивает масштабируемость независимого от облака подхода.

Метрики и безопасность

Что касается метрик, команда может экспортировать все в базу данных временных рядов. Это позволяет наложить границы этапа Spark и метрики использования ресурсов.

Kubernetes - это технология с ролевой моделью контроля доступа и управлением секретами. Команда может использовать множество проектов с открытым исходным кодом, с которыми легко управлять безопасностью, как хранилище HashiCorp.

Наконец, запуск Spark в Kubernetes сэкономит время команды. Время специалистов по обработке данных, инженеров данных и архитекторов данных ценно, и такая установка повысит продуктивность этих людей, а отделы могут привести к экономии.

Заинтересованы в изучении науки о данных?

Acing Data Science Интервью по науке о данных - индивидуальный темп
Acing Data Science www.acingdatascienceinterviews.com

Подпишитесь на нашу новостную рассылку Acing AI, если вам интересно:

Информационный бюллетень
Подпишитесь на информационный бюллетень Acing AI / Data Science. Это бесплатно! Снижение энтропии в науке о данных. Помогая вам с… www.acingdatascienceinterviews.com

Конвейеры данных на Spark и Kubernetes

Рекомендации по использованию Apache Spark и Kubernetes для обработки данных

Управление зависимостями

Динамическое автомасштабирование

Развертывание

Метрики и безопасность

Похожие вопросы