Публикации по теме 'data-lake'
Супер информативно и практично!
Супер информативно и практично!
Поскольку я разрабатываю решения Data Lake для инициатив по аналитике больших данных, я хотел бы продолжить изучение чтения PDF-документов в массовом порядке в наших озерах данных и выполнять машинное обучение и аналитику для раскрытия альфа-версии.
Рад встретить здесь ваши замечательные статьи Даулет Нурманбетов .
Data-lakehouse — Как справиться с изменением парадигмы данных — Руководство по принятию решений CDO
Худший кошмар главного директора по информационным технологиям уже здесь. Большинство облачных OEM-производителей — поставщики большинства хранилищ данных обещают работать со структурированными, полуструктурированными, потоковыми, пакетными, потоковыми и неструктурированными данными с помощью одного термина «озерный дом».
В современном мире захвата рынка Data Lakehouse — общего определения для всех OEM-производителей — говорится, что DataLakehouse — это открытая архитектура управления..
Платформа данных. Часть 1. Обзор
В течение последних двух лет я работал над платформой данных. Ниже приводится краткое изложение некоторых наиболее интересных задач, с которыми я сталкивался.
В любой SaaS-компании в любой момент генерируется множество данных, будь то данные, относящиеся к клиентам, маркетингу, продажам или человеческим ресурсам. или лучше обучать наши модели ML/AI.
Проблема
Ниже приведены некоторые из основных бизнес-задач, которые мы пытаемся решить с помощью платформы данных:
Собирайте показатели..
Озеро данных против хранилища данных: как выбрать правильное решение
Всем привет!
Хранилище данных и озеро данных - две разные системы хранения данных. Однако многие из нас не различают их должным образом. Важно понимать все аспекты озера данных и хранилища данных, чтобы мы могли дифференцировать их использование и решить, что подходит для нашей организации. Поэтому в этой статье давайте разберемся в различиях и использовании хранилищ и озера данных.
Начнем…
Это эпоха, когда организации имеют дело с большими объемами, скоростью и разнообразием..
Вопросы по теме 'data-lake'
Подходит ли DynamoDB в качестве индекса метаданных S3?
Я хотел бы хранить и запрашивать большое количество необработанных данных о событиях. Я хотел бы использовать архитектуру «озера данных», в которой S3 содержит фактические данные о событиях, а DynamoDB используется для их индексации и предоставления...
6285 просмотров
schedule
30.06.2023
Медленное выполнение задания U-SQL из-за SqlFilterTransformer
У меня есть задание U-SQL, которое извлекает данные из 2 файлов .tsv и 2 .csv, выбирает некоторые функции и выполняет некоторые простые преобразования перед выводом в файлы csv/tsv в ADL.
Однако, когда я пытаюсь добавить дополнительные...
61 просмотров
schedule
25.12.2022
Сглаживание JSON с массивом с помощью поискового робота / классификатора / задания ETL AWS Glue
Я просматриваю следующий файл JSON (это действительный JSON) из озера данных s3. Внутри есть 2 поля (устройство, отметка времени) и массив объектов, называемых данными. Каждый объект в массиве данных отличается друг от друга.
{...
5182 просмотров
schedule
19.03.2022
Мне нужно получить даты последнего изменения файлов для файлов озера данных в SSIS
У меня есть задача SSIS, которая считывает файлы JSON из озера данных Azure, анализирует их с помощью команды десериализации в задаче сценария и создает их копии в виде таблиц на локальном сервере SQL.
Это происходит хорошо, но очень медленно. На...
356 просмотров
schedule
15.11.2022