Публикации по теме 'data-engineering'


Управление ОГРОМНЫМИ наборами данных с помощью Scala Spark
Некоторые советы и рекомендации по работе с большими наборами данных в scala spark Искра классная! Он масштабируемый и быстрый, особенно когда вы пишете в «родном Spark» и избегаете пользовательских Udf. Но при работе с большими фреймами данных есть несколько советов, которые можно использовать, чтобы избежать ошибок OOM и ускорить все вычисления. Вот краткий список вещей, которые я узнал из своего личного опыта. Использование конфигурации, подходящей для задачи Всегда полезно..

Понимание утечки данных в прогнозных моделях
Утечка данных является критической проблемой в машинном обучении и может привести к чрезмерно оптимистичным результатам. Короче говоря, утечка данных происходит, когда информация из тестового набора непреднамеренно влияет на процесс обучения. Вот краткое объяснение При построении прогнозных моделей крайне важно убедиться, что наша модель хорошо обобщает невидимые данные. Однако иногда модель может получить доступ к данным, которые она не должна видеть во время обучения. Это явление..

10 моих главных сожалений после изучения Power BI
Будучи страстным аналитиком данных с более чем десятилетним опытом работы с Python и анализом данных, я отправился в путь, чтобы изучить Power BI, мощный инструмент бизнес-аналитики, разработанный Microsoft. Мне очень хотелось расширить свой набор навыков и погрузиться в мир визуализации данных. Однако, как и в случае любого учебного опыта, на этом пути были некоторые сожаления. В этой записи блога я поделюсь 10 моими главными сожалениями после изучения Power BI и надеюсь, что они..

Наука о данных против инженерии данных
Когда дело доходит до разницы между учеными данных и инженерами данных, основная разница заключается в следующем: специалисты по данным создают и обучают прогностические модели, используя данные после их очистки, а затем они сообщают свой анализ менеджерам и руководителям, а инженеры данных создают и поддерживают системы, которые позволяют специалистам по данным получать доступ к данным и интерпретировать их. Специалисты по данным Наука о данных — это изучение данных для извлечения..

Чему я научился на NormConf 2022
Краткое изложение избранных выступлений и извлеченных уроков NormConf — это техническая онлайн-конференция, посвященная вещам, важным для данных и машинного обучения, но не привлекающим внимания. Как то, что начиналось как шутка в Твиттере , НормКонф 2022 превзошел все ожидания. Он включал в себя множество отличных презентаций от умных людей, которые делились историями из реальной жизни в этой области. Все выступления, доступные в виде плейлиста YouTube , достойны просмотра. В..

2023 — Дорожная карта Rockstar Data Engineer
В этой статье представлена ​​дорожная карта для тех, кто хочет стать инженером данных в 2023 году. Она также служит справочным материалом для изучения и улучшения понимания различных навыков, необходимых для этой должности. Для каждой категории навыков я привожу рекомендуемые очки навыков со ссылками на видео/текстовые курсы и некоторые справочники в конце. У меня нет ассоциации с автором, и это не реферальная статья. Цель состоит в том, чтобы предоставить вам простой способ навигации и..

Создать пакет Python для науки о данных
Создать пакет Python для науки о данных Освоение упаковки для науки о данных: от концепции до развертывания В постоянно развивающемся мире науки о данных Python стал ключевым инструментом в наборе инструментов инженеров данных, архитекторов данных и ученых, занимающихся данными. Его простота, читаемость и обширная библиотечная экосистема делают его подходящим языком для всего: от базовой предварительной обработки данных до продвинутого машинного обучения. Погружаясь в сложные задачи..