Мои заметки с экзамена на инженера по машинному обучению Google Cloud
20 июля и 20 августа компания Google впервые подала заявку на участие в программе профессионального инженера по машинному обучению (бета). Этот экзамен состоял из 120 вопросов за 4 часа, что было очень утомительно. Для справки, в обычных экзаменах за 2 часа экзамена «всего» 60 вопросов, так как они уже проверили свои вопросы на бета-тестировании.
Это был мой четвертый экзамен по Google Cloud после младшего специалиста, профессионального инженера по данным и архитектора, и, несомненно, он был самым сложным. Следующие примечания представляют собой список основных моментов, которые я видел на экзамене (хотя многое уже было сделано). Кроме того, я поделюсь некоторым материалом, который я собрал, готовясь к этому экзамену. Поскольку у нас нет курсов, посвященных только экзамену (я надеюсь, что Мэтью Уласьен из Linux Academy / Acloud Guru нам поможет), я думаю, это может быть кому-то полезно.
В целом экзамен представляет собой сценарий, основанный на решениях, аналогичный экзамену PCA. Вы увидите много фраз: «Вы работаете в« сфере бизнеса ». Вам нужно развернуть X-модель / решить Y-проблему ». Но не позволяйте этому портить себя. Вас спросят не только об общем решении (архитектуре), но и о технических деталях (включая небольшие образцы кода Tensorflow).
Ниже приведены основные темы, которые я вспоминаю с экзамена. Наверняка я забуду некоторые из них (так много затронутых тем), пожалуйста, дайте мне знать, если вы действительно что-то здесь пропустите:
Что вы ДОЛЖНЫ знать:
- Показатели эффективности модели (ложные срабатывания / отрицательные результаты, отзыв, точность, оценка F1, AUC, ROC и т. д.). Вам нужно будет знать их наизусть, а также то, что вам нужно изменить в своих моделях, чтобы вы могли их увеличивать / уменьшать.
- Модели машинного обучения (все без исключения). Как они работают, но особенно в какой ситуации вы можете их применить, передовой опыт, разработка функций и т. Д.
- Таблицы AutoML
- Платформа искусственного интеллекта БОЛЬШОЙ (пользовательские модели, обучение, обслуживание, записные книжки и т. д. и т. д., все это)
- БОЛЬШОЙ BigQueryML
- Платформа AI x BigQueryML x Другое
- Data Engineer в Google Cloud (я действительно рекомендую вам пройти сертификацию Professional Data Engineer до этого, это вам очень поможет. Многие вопросы по BigQuery, Dataflow, Pub / Sub, Dataproc, Datafusion x Dataprep)
- Фреймворк MLOps: Kubeflow Pipelines - огромная тема, я знаю все детали его архитектуры и работы. Также обратите внимание на автоматизацию CI / CD, обычно это облачные репозитории исходного кода + облачная сборка + конвейеры Kubeflow.
- Tensorflow Estimator, Keras (нужно знать основы, полезно иметь практическую практику)
- Рекомендации / архитектуры приема данных: Я бы сказал, что это одна из самых важных тем экзамена : TFRecords, tf.data, изображения, тексты, потоковая передача, пакетная обработка.
- Разработка функций, предварительная обработка, преобразования
- CPU x GPU x TPU (когда использовать, какие рекомендации, варианты использования, стоимость, типы компьютеров вы бы выбрали), на экзамене им уделялось большое внимание.
- Бизнес-показатели, особенно из цифрового бизнеса (показатель отказов, цена за конверсию, цена за клик и т. д.). Очень важная тема, спасибо Тьяго за предупреждение.
- Online Prediction x Batch, когда использовать, платформы, инструменты, передовой опыт, как уменьшить задержку при обслуживании.
- AutoML x Cloud API Services (например, AutoML Natural Language x Cloud Natural Speech API)
- Регуляризация L1 x L2
Что также очень важно знать:
- DLP, шифрование / дешифрование, KMS, лучшие практики управления данными
- Рекомендации AI
- Тензорборд, инструмент "Что, если бы"
- Федеративное обучение, машинное обучение для мобильных и периферийных устройств, Firebase
- Оптимизация для обслуживания (квантование)
- Трансферное обучение
- Функции потери Кераса
- IAM (не получил никаких вопросов по этому поводу, что было очень странно для экзамена Google. Тем не менее, я считаю, что это хорошая тема)
Это список материалов, которые я использовал для подготовки к этому экзамену, большинство из которых взяты из официальных документов Google Cloud и Tensorflow. Они великолепны!
Руководства по экзамену
Дмитрий и Стивен: удивительное руководство по подготовке
Введение в ML
Https://developers.google.com/machine-learning/guides/rules-of-ml
ML-дизайн и лучшие практики
Https://medium.com/@lakshmanok/machine-learning-design-patterns-58e6ecb013d7
CPU, GPU, TPU
Https://cloud.google.com/ai-platform/training/docs/using-gpus
Https://cloud.google.com/ai-platform/training/docs/using-tpus#gcloud
Tensorflow
- тензорный поток - входные данные
Https://www.tensorflow.org/guide/data_performance
- тензорный поток - преобразование
Https://cloud.google.com/solutions/machine-learning/data-preprocessing-for-ml-with-tf-transform-pt1
- tensorflow - обучение
Https://www.tensorflow.org/guide/distributed_training
Https://neptune.ai/blog/keras-loss-functions
- tensorflow - тесты
Https://www.tensorflow.org/community/contribute/tests
- tenorflow - обслуживает
https://medium.com/google-cloud/optimizing-tensorflow-models-for-serving-959080e9ddbf **
Https://www.tensorflow.org/lite/performance/post_training_quantization
Таблицы AutoML
Https://cloud.google.com/automl-tables/docs/data-best-practices?hl=en#tables-does
ML Ops
Https://codelabs.developers.google.com/codelabs/kubeflow-introduction/#0
Https://www.youtube.com/watch?v=20h_RTHEtZI *** Рекомендации по ML Ops в Google Cloud
Также взгляните на Google Code Labs. Здесь много интересного для практики:
Https://codelabs.developers.google.com/
Подсказка: отфильтруйте по Tensorflow, Machine Learning или GCP