Мои заметки с экзамена на инженера по машинному обучению Google Cloud

20 июля и 20 августа компания Google впервые подала заявку на участие в программе профессионального инженера по машинному обучению (бета). Этот экзамен состоял из 120 вопросов за 4 часа, что было очень утомительно. Для справки, в обычных экзаменах за 2 часа экзамена «всего» 60 вопросов, так как они уже проверили свои вопросы на бета-тестировании.

Это был мой четвертый экзамен по Google Cloud после младшего специалиста, профессионального инженера по данным и архитектора, и, несомненно, он был самым сложным. Следующие примечания представляют собой список основных моментов, которые я видел на экзамене (хотя многое уже было сделано). Кроме того, я поделюсь некоторым материалом, который я собрал, готовясь к этому экзамену. Поскольку у нас нет курсов, посвященных только экзамену (я надеюсь, что Мэтью Уласьен из Linux Academy / Acloud Guru нам поможет), я думаю, это может быть кому-то полезно.

В целом экзамен представляет собой сценарий, основанный на решениях, аналогичный экзамену PCA. Вы увидите много фраз: «Вы работаете в« сфере бизнеса ». Вам нужно развернуть X-модель / решить Y-проблему ». Но не позволяйте этому портить себя. Вас спросят не только об общем решении (архитектуре), но и о технических деталях (включая небольшие образцы кода Tensorflow).

Ниже приведены основные темы, которые я вспоминаю с экзамена. Наверняка я забуду некоторые из них (так много затронутых тем), пожалуйста, дайте мне знать, если вы действительно что-то здесь пропустите:

Что вы ДОЛЖНЫ знать:

  • Показатели эффективности модели (ложные срабатывания / отрицательные результаты, отзыв, точность, оценка F1, AUC, ROC и т. д.). Вам нужно будет знать их наизусть, а также то, что вам нужно изменить в своих моделях, чтобы вы могли их увеличивать / уменьшать.
  • Модели машинного обучения (все без исключения). Как они работают, но особенно в какой ситуации вы можете их применить, передовой опыт, разработка функций и т. Д.
  • Таблицы AutoML
  • Платформа искусственного интеллекта БОЛЬШОЙ (пользовательские модели, обучение, обслуживание, записные книжки и т. д. и т. д., все это)
  • БОЛЬШОЙ BigQueryML
  • Платформа AI x BigQueryML x Другое
  • Data Engineer в Google Cloud (я действительно рекомендую вам пройти сертификацию Professional Data Engineer до этого, это вам очень поможет. Многие вопросы по BigQuery, Dataflow, Pub / Sub, Dataproc, Datafusion x Dataprep)
  • Фреймворк MLOps: Kubeflow Pipelines - огромная тема, я знаю все детали его архитектуры и работы. Также обратите внимание на автоматизацию CI / CD, обычно это облачные репозитории исходного кода + облачная сборка + конвейеры Kubeflow.
  • Tensorflow Estimator, Keras (нужно знать основы, полезно иметь практическую практику)
  • Рекомендации / архитектуры приема данных: Я бы сказал, что это одна из самых важных тем экзамена : TFRecords, tf.data, изображения, тексты, потоковая передача, пакетная обработка.
  • Разработка функций, предварительная обработка, преобразования
  • CPU x GPU x TPU (когда использовать, какие рекомендации, варианты использования, стоимость, типы компьютеров вы бы выбрали), на экзамене им уделялось большое внимание.
  • Бизнес-показатели, особенно из цифрового бизнеса (показатель отказов, цена за конверсию, цена за клик и т. д.). Очень важная тема, спасибо Тьяго за предупреждение.
  • Online Prediction x Batch, когда использовать, платформы, инструменты, передовой опыт, как уменьшить задержку при обслуживании.
  • AutoML x Cloud API Services (например, AutoML Natural Language x Cloud Natural Speech API)
  • Регуляризация L1 x L2

Что также очень важно знать:

  • DLP, шифрование / дешифрование, KMS, лучшие практики управления данными
  • Рекомендации AI
  • Тензорборд, инструмент "Что, если бы"
  • Федеративное обучение, машинное обучение для мобильных и периферийных устройств, Firebase
  • Оптимизация для обслуживания (квантование)
  • Трансферное обучение
  • Функции потери Кераса
  • IAM (не получил никаких вопросов по этому поводу, что было очень странно для экзамена Google. Тем не менее, я считаю, что это хорошая тема)

Это список материалов, которые я использовал для подготовки к этому экзамену, большинство из которых взяты из официальных документов Google Cloud и Tensorflow. Они великолепны!

Руководства по экзамену

Примечания Парт М.

Дмитрий и Стивен: удивительное руководство по подготовке

Введение в ML

Https://towardsdatascience.com/11-most-common-machine-learning-algorithms-explained-in-a-nutshell-cc6e98df93be

Https://developers.google.com/machine-learning/guides/rules-of-ml

ML-дизайн и лучшие практики

Https://medium.com/@lakshmanok/machine-learning-design-patterns-58e6ecb013d7

Https://towardsdatascience.com/4-tips-for-advanced-feature-engineering-and-preprocessing-ec11575c09ea



CPU, GPU, TPU



Https://cloud.google.com/ai-platform/training/docs/using-gpus

Https://cloud.google.com/ai-platform/training/docs/using-tpus#gcloud

Tensorflow



  • тензорный поток - входные данные

Https://www.tensorflow.org/guide/data_performance

  • тензорный поток - преобразование

Https://cloud.google.com/solutions/machine-learning/data-preprocessing-for-ml-with-tf-transform-pt1

  • tensorflow - обучение

Https://www.tensorflow.org/guide/distributed_training

Https://keras.io/api/losses/

Https://neptune.ai/blog/keras-loss-functions

  • tensorflow - тесты

Https://www.tensorflow.org/community/contribute/tests

Https://github.com/GoogleCloudPlatform/professional-services/tree/master/examples/tensorflow-unit-testing

  • tenorflow - обслуживает

https://medium.com/google-cloud/optimizing-tensorflow-models-for-serving-959080e9ddbf **

Https://www.tensorflow.org/lite/performance/post_training_quantization

Таблицы AutoML

Https://cloud.google.com/automl-tables/docs/data-best-practices?hl=en#tables-does

ML Ops

Https://codelabs.developers.google.com/codelabs/kubeflow-introduction/#0

Https://cloud.google.com/blog/products/gcp/simplifying-machine-learning-on-open-hybrid-clouds-with-kubeflow

Https://cloud.google.com/solutions/machine-learning/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning ***

Https://cloud.google.com/solutions/machine-learning/architecture-for-mlops-using-tfx-kubeflow-pipelines-and-cloud-build ***

Https://www.youtube.com/watch?v=20h_RTHEtZI *** Рекомендации по ML Ops в Google Cloud

Https://medium.com/google-cloud/how-to-carry-out-ci-cd-in-machine-learning-mlops-using-kubeflow-ml-pipelines-part-3-bdaf68082112 **

Также взгляните на Google Code Labs. Здесь много интересного для практики:

Https://codelabs.developers.google.com/

Подсказка: отфильтруйте по Tensorflow, Machine Learning или GCP

Это все, ребята. Если вы что-то упустили или у вас возникнут вопросы, дайте мне знать.