Публикации по теме 'data-engineering'
Что делает, если __name__ == ”__main__” делает в Python?
Когда и как выполняется основной метод в Python
Если вы новичок в Python, вы могли заметить, что скрипт Python можно запускать с основным методом или без него. И нотация, используемая в Python для определения одного (например, if __name__ == ‘__main__' ), определенно не говорит сама за себя, особенно для новичков.
В сегодняшнем уроке мы рассмотрим и обсудим назначение основного метода и чего ожидать, когда вы определяете его в своих приложениях Python.
Какова цель __name__ ?..
Проверка данных конвейера данных Python с помощью pydantic
Цель этой статьи — продемонстрировать и поделиться фрагментом кода о том, как использовать pydantic для проверки и защиты конвейеров данных. Давайте погрузимся…
Использование Пидантик
Pydantic — это популярная библиотека, которая анализирует наши данные в соответствии с ожидаемыми типами данных. Мы можем определить наши типы данных, используя dataclass , и позволить Pydantic обрабатывать анализ типов данных. Посмотрим, как мы…
Прогностическое обслуживание: использование данных датчиков и машинного обучения для усовершенствованного оборудования…
Предприятия в самых разных отраслях в значительной степени полагаются на машины и оборудование для своей деятельности в современной среде, управляемой данными. Из-за непредвиденных простоев и дорогостоящего ремонта неожиданные сбои или поломки могут привести к большим финансовым потерям. Однако профилактическое обслуживание стало мощным инструментом для снижения таких опасностей в результате развития науки о данных и машинного обучения. Использование данных датчиков и методов машинного..
День Дагстера: мысли для пользователей Airflow
Над чем работает Dagster и что это значит для пользователей Airflow
Вчера в 12 часов по восточному времени стартовал Дагстер 1.0. Dagster позиционирует себя как платформу оркестрации нового поколения с открытым исходным кодом для разработки, производства и наблюдения за активами данных . Команда Dagster признает, что они намерены конкурировать с Airflow , но сообщество постоянно спрашивает, так ли это. На самом деле, Дагстер сравнивает себя с Airflow со статьей , которую они..
Что такое параллельные вычисления?
Понимание важности параллельных вычислений в контексте Data Engineering
Введение
Инженерам данных обычно приходится извлекать данные из нескольких источников данных, очищать их и объединять. И во многих случаях эти процессы необходимо применять к большим объемам данных.
В сегодняшней статье мы рассмотрим одну из самых фундаментальных концепций в области вычислений и обработки данных, в частности, называемую параллельным программированием, которая позволяет современным приложениям..
Как понять хранилище данных: подробное руководство
Приветствую всех дата-сайентистов и дата-инженеров! В этой статье мы погрузимся в мир бизнес-аналитики в проектах по науке о данных, узнаем, как создать хранилище данных, и получим полное представление о его компонентах. Обладая этими знаниями, вы сможете уверенно общаться со своей командой и клиентами.
Начнем с обсуждения хранилища данных и его важности в любом проекте по науке о данных.
Хранилище данных – это набор предметно-ориентированных, интегрированных, изменяющихся во времени и..
Конвейеры данных Spark в облаке
Введение
За последние десять лет или около того создание и выполнение заданий Spark стало значительно проще, в основном благодаря:
API высокого уровня , упрощающие выражение логики. Управляемые облачные платформы — хорошо масштабируемое хранилище объектов и эфемерные кластеры в один клик на основе точечных экземпляров значительно упрощают выполнение заданий (и откладывают необходимость их оптимизации).
В то время как создание логики в Spark и выполнение заданий стало..