Публикации по теме 'data-pipeline'


Хранение данных под (вашим) контролем с помощью Apache Airflow
Клиентам требуется все больше и больше информации, основанной на их данных, но для этого необходимо наличие некоторых базовых ресурсов, позволяющих проводить более продвинутый анализ и методы. Существует множество инструментов и дисциплин, связанных с обработкой данных во всех аспектах, как локально, так и в виде облачных сервисов, но мы видим, что наши клиенты ценят сохранение определенного уровня владения всем процессом. В этом контексте Apache Airflow становится хорошим кандидатом на..

Проверка данных конвейера данных Python с помощью pydantic
Цель этой статьи — продемонстрировать и поделиться фрагментом кода о том, как использовать pydantic для проверки и защиты конвейеров данных. Давайте погрузимся… Использование Пидантик Pydantic — это популярная библиотека, которая анализирует наши данные в соответствии с ожидаемыми типами данных. Мы можем определить наши типы данных, используя dataclass , и позволить Pydantic обрабатывать анализ типов данных. Посмотрим, как мы…

Относитесь к своим данным как к месту преступления
Как инженер данных или архитектор данных, вы несете ответственность за проектирование и создание инфраструктуры, которая хранит и обрабатывает данные, обеспечивающие работу вашей организации. Но задумывались ли вы когда-нибудь о том, чтобы относиться к своим данным как к месту преступления ? В этой статье мы рассмотрим, почему этот подход может быть полезен и как вы можете применить его в своей работе. Когда мы думаем о месте преступления, мы думаем о месте, где произошло что-то..

Конвейеры данных Spark в облаке
Введение За последние десять лет или около того создание и выполнение заданий Spark стало значительно проще, в основном благодаря: API высокого уровня , упрощающие выражение логики. Управляемые облачные платформы — хорошо масштабируемое хранилище объектов и эфемерные кластеры в один клик на основе точечных экземпляров значительно упрощают выполнение заданий (и откладывают необходимость их оптимизации). В то время как создание логики в Spark и выполнение заданий стало..

Улучшение производительности статистической модели
В этой статье мы подойдем к той же проблеме предсказания появления на собеседовании , что и в прошлой статье. Поскольку размер набора данных был относительно небольшим, около 1200 экземпляров, и данные распределены по классам, я решил протестировать его с помощью ряда статистических алгоритмов. Мы обнаружили, что LinearDiscriminant и XGB работают лучше всего; оба приближаются к точности 69%. Следовательно, я стремился улучшить производительность путем настройки и набора алгоритмов...

Вопросы по теме 'data-pipeline'

Не удается подключить AWS Data Pipeline к Redshift
У меня есть запрос, который я хотел бы регулярно запускать в Redshift. Я настроил для него AWS Data Pipeline. Моя проблема в том, что я не могу понять, как получить доступ к Redshift. Я все время получаю сообщение об ошибке «Не удается установить...
427 просмотров

Как загрузить файл .npy в конвейер tensorflow с помощью tf.data
Я пытаюсь прочитать свои данные X и y из файлов .npy с помощью np.load() в конвейере tf.data . Но получите следующую ошибку, если я позвоню model.fit() . У кого-нибудь есть решение этой проблемы? Я думал, что мне нужно придать форму X_data и...
104 просмотров

GCP Data Fusion Конфигурация хранилища BLOB-объектов Azure Перенос нескольких файлов
Я пытаюсь передать несколько CSV-файлов из контейнера хранилища Azure в корзину GCP через конвейер объединения данных. Я могу успешно передать один файл, указав указанный ниже путь (полный путь для определенного CSV-файла) для поля «путь» для...
142 просмотров