Статьи по теме data-engineering

Публикации по теме 'data-engineering'

Что делает, если name == ”main” делает в Python?

Когда и как выполняется основной метод в Python Если вы новичок в Python, вы могли заметить, что скрипт Python можно запускать с основным методом или без него. И нотация, используемая в Python для определения одного (например, if __name__ == ‘__main__' ), определенно не говорит сама за себя, особенно для новичков. В сегодняшнем уроке мы рассмотрим и обсудим назначение основного метода и чего ожидать, когда вы определяете его в своих приложениях Python. Какова цель __name__ ?..

Проверка данных конвейера данных Python с помощью pydantic

Цель этой статьи — продемонстрировать и поделиться фрагментом кода о том, как использовать pydantic для проверки и защиты конвейеров данных. Давайте погрузимся… Использование Пидантик Pydantic — это популярная библиотека, которая анализирует наши данные в соответствии с ожидаемыми типами данных. Мы можем определить наши типы данных, используя dataclass , и позволить Pydantic обрабатывать анализ типов данных. Посмотрим, как мы…

Прогностическое обслуживание: использование данных датчиков и машинного обучения для усовершенствованного оборудования…

Предприятия в самых разных отраслях в значительной степени полагаются на машины и оборудование для своей деятельности в современной среде, управляемой данными. Из-за непредвиденных простоев и дорогостоящего ремонта неожиданные сбои или поломки могут привести к большим финансовым потерям. Однако профилактическое обслуживание стало мощным инструментом для снижения таких опасностей в результате развития науки о данных и машинного обучения. Использование данных датчиков и методов машинного..

День Дагстера: мысли для пользователей Airflow

Над чем работает Dagster и что это значит для пользователей Airflow Вчера в 12 часов по восточному времени стартовал Дагстер 1.0. Dagster позиционирует себя как платформу оркестрации нового поколения с открытым исходным кодом для разработки, производства и наблюдения за активами данных . Команда Dagster признает, что они намерены конкурировать с Airflow , но сообщество постоянно спрашивает, так ли это. На самом деле, Дагстер сравнивает себя с Airflow со статьей , которую они..

Что такое параллельные вычисления?

Понимание важности параллельных вычислений в контексте Data Engineering Введение Инженерам данных обычно приходится извлекать данные из нескольких источников данных, очищать их и объединять. И во многих случаях эти процессы необходимо применять к большим объемам данных. В сегодняшней статье мы рассмотрим одну из самых фундаментальных концепций в области вычислений и обработки данных, в частности, называемую параллельным программированием, которая позволяет современным приложениям..

Как понять хранилище данных: подробное руководство

Приветствую всех дата-сайентистов и дата-инженеров! В этой статье мы погрузимся в мир бизнес-аналитики в проектах по науке о данных, узнаем, как создать хранилище данных, и получим полное представление о его компонентах. Обладая этими знаниями, вы сможете уверенно общаться со своей командой и клиентами. Начнем с обсуждения хранилища данных и его важности в любом проекте по науке о данных. Хранилище данных – это набор предметно-ориентированных, интегрированных, изменяющихся во времени и..

Конвейеры данных Spark в облаке

Введение За последние десять лет или около того создание и выполнение заданий Spark стало значительно проще, в основном благодаря: API высокого уровня , упрощающие выражение логики. Управляемые облачные платформы — хорошо масштабируемое хранилище объектов и эфемерные кластеры в один клик на основе точечных экземпляров значительно упрощают выполнение заданий (и откладывают необходимость их оптимизации). В то время как создание логики в Spark и выполнение заданий стало..