Data-lakehouse — Как справиться с изменением парадигмы данных

Худший кошмар главного директора по информационным технологиям уже здесь. Большинство облачных OEM-производителей — поставщики большинства хранилищ данных обещают работать со структурированными, полуструктурированными, потоковыми, пакетными, потоковыми и неструктурированными данными с помощью одного термина «озерный дом».

В современном мире захвата рынка Data Lakehouse — общего определения для всех OEM-производителей — говорится, что DataLakehouse — это открытая архитектура управления данными, которая сочетает в себе гибкость, экономичность и масштаб озер данных с управлением данными и ACID-транзакциями хранилищ данных. включение бизнес-аналитики (BI) и машинного обучения (ML) для всех данных.

С точки зрения директора по данным — очень сложно выбрать, когда все OEM-производители обещают одни и те же результаты. Как вы оцениваете Lakehouse и выбираете подходящего партнера для своего пути к данным? За последние несколько недель мы разговаривали с лицами, принимающими решения в отрасли, — здесь ниже приведены несколько советов, чтобы принять правильное решение в отношении OEM-производителя Data-lakehouse для перехода к данным.

Решение – 11 основных уточнений, что должна поддерживать идеальная архитектура Lakehouse.

Ноутбуки. Должны быть оснащены различными языками (Python, Scala, SQL и многими другими), которые помогают пользователям мгновенно анализировать данные и получать к ним доступ. Блокнот должен быть доступен для совместного использования в рабочей области, что обеспечивает совместную работу в организации.

Storage Lake: уровень хранилища данных с открытым исходным кодом должен позволять пользователям выполнять ACID-транзакции с данными, что было довольно утомительной задачей.

Поддержка всех механизмов OSS: молниеносные вычисления в памяти, вы можете легко интегрировать различные библиотеки с открытым исходным кодом.

Интеграция с несколькими облаками: поддерживает ведущее облако и легко интегрируется. Поставщик Lakehouse должен поддерживать AWS, Azure и GCP в качестве своей ведущей облачной платформы. С этими поставщиками облачных услуг клиент должен легко настроить кластеры и выполнять большие данные с помощью механизмов OSS.

Машинное обучение: должны поддерживаться различные библиотеки машинного обучения из Apache Spark, а также собственные библиотеки Python, такие как TensorFlow, PyTorch, Scikit-Learn и многие другие. Пользователи могут быстро адаптировать эти библиотеки и быстро создавать и обучать модели машинного обучения.

Экономичная стоимость хранения. Озера данных основаны на недорогих способностях хранения озер данных и могут масштабироваться для увеличения объемов данных, что сегодня является жизненно важным аспектом для крупных организаций.

Гибкость при обработке различных типов данных (структурированных, полуструктурированных и неструктурированных). В эпоху, когда большинство бизнес-данных поступают в неструктурированных форматах, Data Lakehouse может работать с различными типами данных (структурированными, неструктурированными и полуструктурированный) и форматирует все, при этом имея возможность взаимодействовать со стандартным SQL по сравнению с ansi-SQL.

Приложение для анализа данных, машинного обучения и обработки данных: должно обеспечивать идеальное решение для реализации разнообразных рабочих нагрузок, таких как обработка данных, машинное обучение (ML) и отчетность по бизнес-аналитике (BI), поскольку они предоставляют доступ к Апач Спарк.

Упрощенная схема и легкое масштабирование: возможность реализации упрощенной схемы хранилищ данных, например определение типизированных таблиц с ограничениями и типами данных для неструктурированных данных.

Управление данными и управление ими. Обеспечение качества и управления данными имеет решающее значение, и Datalake-house имеет эти встроенные функции. поддерживать одну систему, что упрощает управление данными.

Ускоренный доступ к данным и расширенный обмен данными. Существование всех организационных данных в одной системе снижает перемещение данных между несколькими системами, риск избыточности данных и позволяет получать более качественные данные для анализа.

Есть некоторые ограничения, которые необходимо учитывать, прежде чем они полностью зависят от архитектуры Data Lakehouse, такие как совместимость запросов, сложность очистки данных и т. д.

В Google Cloud мы предоставляем облачное, масштабируемое и безопасное решение хранилища данных, которое предоставляет клиентам выбор и совместимость. Наша облачная архитектура снижает затраты и повышает эффективность организаций. Наше решение основано на:

Хранилище: возможность выбора между недорогим объектным хранилищем в Google Cloud Storage или высокооптимизированным аналитическим хранилищем в BigQuery.
Вычисления: бессерверные вычисления, предоставляющие разные механизмы для разных рабочих нагрузок.
BigQuery, наше бессерверное облачное хранилище данных предоставляет механизм, совместимый с ANSI SQL, который позволяет анализировать петабайты данных.
Dataproc,наша управляемая служба Hadoop и Spark позволяет использовать различные платформы с открытым исходным кодом.
SServerless Spark позволяет клиентам отправлять свои рабочие нагрузки в управляемую службу и заботиться о выполнении заданий.
Vertex AI, наша унифицированная платформа MLOps, позволяет создавать крупномасштабные модели машинного обучения с очень ограниченным кодированием.
Кроме того, вы можете использовать многие продукты наших партнеров, такие как Databricks, Starburst или Elastic, для различных рабочих нагрузок.
Управление: Dataplex обеспечивает структуру управления данными на основе метаданных для данных в Google Cloud Storage (объектное хранилище) и BigQuery (высокооптимизированное аналитическое хранилище). Организации могут создавать, управлять, защищать, систематизировать и анализировать данные в домике у озера с помощью Dataplex.

Google Cloud использует подход, основанный на открытости, выборе и простоте, и предлагает аналитическую платформу планетарного масштаба, которая объединяет двух основных арендаторов корпоративных операций с данными, озер данных и хранилищ данных в единую экосистему данных.

Озеро данных является кульминацией этих архитектурных усилий, и мы с нетерпением ждем возможности работать с вами, чтобы реализовать его в вашей организации.

Data-lakehouse — Как справиться с изменением парадигмы данных — Руководство по принятию решений CDO

Похожие вопросы