В этой статье представлена дорожная карта для тех, кто хочет стать инженером данных в 2023 году. Она также служит справочным материалом для изучения и улучшения понимания различных навыков, необходимых для этой должности.
Для каждой категории навыков я привожу рекомендуемые очки навыков со ссылками на видео/текстовые курсы и некоторые справочники в конце. У меня нет ассоциации с автором, и это не реферальная статья. Цель состоит в том, чтобы предоставить вам простой способ навигации и улучшения ваших навыков :)!
Чтобы стать опытным инженером по данным, вам необходимо знать основы информатики, разработки, сетей и баз данных.
Основы КС
- Структуры данных и алгоритмы.
- Основная архитектура компьютера
- API и REST.
- Linux (Терминал, Сценарии оболочки, Cronjobs, Процессы).
Справочники
Руководство по проектированию алгоритмов
Компьютерные системы: взгляд программиста
Как работает Linux: что должен знать каждый суперпользователь
Основы разработки
- Гит.
- Python, Scala, Java, Go.
- Тестирование: модульные тесты, интеграционные тесты, функциональное тестирование.
- VIM/VSCode.
- SCRUM/гибкие методологии.
- SOLID/Рефакторинг.
Справочники
Операционные системы: три простых шага
Рефакторинг: улучшение дизайна существующего кода
Основы работы в сети
Справочники
Компьютерные сети: нисходящий подход
Основы базы данных
- Реляционная алгебра/нормализация.
- SQL.
- КИСЛОТА / CAP.
- OLTP против OLAP
- Хранилища данных и витрины данных.
- Datalake / Cloud Data Platform.
Справочники
Чтения по системам баз данных
После основ вам нужно освоить некоторые технологии. Вот неполный список инструментов для хранения, обработки и создания конвейеров данных.
Хранилище данных
- Реляционные: MySql, PostgreSQL, MariaDB, Amazon Aurora.
- Документ: MongoDB, Elasticsearch, Apache CouchDB.
- Широкий столбец: Cassandra, Hbase, Google Bigtable.
- Графика: Neo4j, Amazon Neptune.
- Пара "ключ-значение": Redis, Memcached, Amazon DynamoDB.
- Обмен сообщениями: RabbitMQ, Apache ActiveMQ.
- Хранилища данных: Snowflake, Presto, Apache Hive, Amazon Redshift, Google BigQuery.
- Озера данных: S3, ADLS Gen2
Справочники
Проектирование приложений, интенсивно использующих данные
Обработка данных:
- Кластерные вычисления: Hadoop, HDFS, MapReduce.
- Пакет: Apache Pig, Apache Arrow, Apache Impala.
- Гибрид: Apache Spark, Apache Beam, Apache Flink.
- Потоковое вещание: Apache Kafka, Apache Storm, Apache Samza, Amazon Kinesis.
- Управляемые решения: Databricks, Amazon EMR, Google Dataproc, Azure HDInsight.
Планирование рабочего процесса / ETC
DevOps и безопасность
- Дженкинс, Azure Devops, AWS CodePipeline, Github Actions.
- Docker, Kuberentes и Helm.
- Active Directory/Azure Active Directory.
- Шифрование, Управление ключами.
- Управление данными, GDPR.
Пришло время доказать свои навыки. Вот несколько сертификатов, которые помогут вам получить работу вашей мечты или просто придадут вам уверенности.
Ценные сертификаты
Заключение
Сохраните эту историю в закладки! Это может помочь вам эффективно учиться и стать лучшим инженером данных. Вы не рождаетесь гуру, это постоянные пробы и ошибки, которые улучшают ваши навыки.