Публикации по теме 'data-lake'


Супер информативно и практично!
Супер информативно и практично! Поскольку я разрабатываю решения Data Lake для инициатив по аналитике больших данных, я хотел бы продолжить изучение чтения PDF-документов в массовом порядке в наших озерах данных и выполнять машинное обучение и аналитику для раскрытия альфа-версии. Рад встретить здесь ваши замечательные статьи Даулет Нурманбетов .

Data-lakehouse — Как справиться с изменением парадигмы данных — Руководство по принятию решений CDO
Худший кошмар главного директора по информационным технологиям уже здесь. Большинство облачных OEM-производителей — поставщики большинства хранилищ данных обещают работать со структурированными, полуструктурированными, потоковыми, пакетными, потоковыми и неструктурированными данными с помощью одного термина «озерный дом». В современном мире захвата рынка Data Lakehouse — общего определения для всех OEM-производителей — говорится, что DataLakehouse — это открытая архитектура управления..

Платформа данных. Часть 1. Обзор
В течение последних двух лет я работал над платформой данных. Ниже приводится краткое изложение некоторых наиболее интересных задач, с которыми я сталкивался. В любой SaaS-компании в любой момент генерируется множество данных, будь то данные, относящиеся к клиентам, маркетингу, продажам или человеческим ресурсам. или лучше обучать наши модели ML/AI. Проблема Ниже приведены некоторые из основных бизнес-задач, которые мы пытаемся решить с помощью платформы данных: Собирайте показатели..

Озеро данных против хранилища данных: как выбрать правильное решение
Всем привет! Хранилище данных и озеро данных - две разные системы хранения данных. Однако многие из нас не различают их должным образом. Важно понимать все аспекты озера данных и хранилища данных, чтобы мы могли дифференцировать их использование и решить, что подходит для нашей организации. Поэтому в этой статье давайте разберемся в различиях и использовании хранилищ и озера данных. Начнем… Это эпоха, когда организации имеют дело с большими объемами, скоростью и разнообразием..

Вопросы по теме 'data-lake'

Подходит ли DynamoDB в качестве индекса метаданных S3?
Я хотел бы хранить и запрашивать большое количество необработанных данных о событиях. Я хотел бы использовать архитектуру «озера данных», в которой S3 содержит фактические данные о событиях, а DynamoDB используется для их индексации и предоставления...
6285 просмотров
schedule 30.06.2023

Медленное выполнение задания U-SQL из-за SqlFilterTransformer
У меня есть задание U-SQL, которое извлекает данные из 2 файлов .tsv и 2 .csv, выбирает некоторые функции и выполняет некоторые простые преобразования перед выводом в файлы csv/tsv в ADL. Однако, когда я пытаюсь добавить дополнительные...
61 просмотров
schedule 25.12.2022

Сглаживание JSON с массивом с помощью поискового робота / классификатора / задания ETL AWS Glue
Я просматриваю следующий файл JSON (это действительный JSON) из озера данных s3. Внутри есть 2 поля (устройство, отметка времени) и массив объектов, называемых данными. Каждый объект в массиве данных отличается друг от друга. {...
5182 просмотров

Мне нужно получить даты последнего изменения файлов для файлов озера данных в SSIS
У меня есть задача SSIS, которая считывает файлы JSON из озера данных Azure, анализирует их с помощью команды десериализации в задаче сценария и создает их копии в виде таблиц на локальном сервере SQL. Это происходит хорошо, но очень медленно. На...
356 просмотров
schedule 15.11.2022