Начало работы с машинным обучением на AWS

При работе с машинным обучением можно быстро перегрузиться техническими деталями и потерять из виду первоначальную цель: как мы можем использовать прошлые данные для ответов на будущие бизнес-вопросы?

Возникает вопрос: действительно ли это игра, в которую мы хотим играть? Или машинное обучение может стать прозрачным и просто выполнять свою работу автоматически?

Как оказалось, ряд сервисов AWS предоставляет встроенные функции машинного обучения, для использования которых не требуется никаких усилий. Давайте рассмотрим их все и посмотрим, сколько бесплатных поездок мы можем получить.

Вычисления — прогнозирующее автоматическое масштабирование

Определение размера вашей вычислительной инфраструктуры, вероятно, является самой сложной задачей при создании платформ. Планирование мощностей — темное искусство, особенно в быстро меняющихся и непредсказуемых средах, таких как стартапы. Конечно, облачные вычисления принесли нам эластичные виртуальные машины по запросу, которые почти полностью решают эту проблему.

Однако существует такая вещь, как слишком большая инфраструктура, и затраты также необходимо контролировать. В течение многих лет Amazon Auto Scaling помогала разработчикам оптимизировать свои вычислительные платформы. Тем не менее, будет справедливо сказать, что настройка пороговых значений, сигналов тревоги и политик масштабирования стала темным искусством сама по себе, как показано на этом секционном заседании re:Invent с участием всемогущего Netflix.

Стремясь все упростить, мы представили Прогнозное автоматическое масштабирование на конференции re:Invent 2018. Джефф Барр говорит: Использование данных, собранных при фактическом использовании точки данных, взятые из наших собственных наблюдений, мы используем хорошо обученные модели машинного обучения, чтобы прогнозировать ожидаемый трафик (и использование EC2), включая ежедневные и еженедельные модели.

Эта новая функция избавит вас от множества экспериментов и предположений… а также от бессмысленных актов случайного насилия над клавиатурами, столами и кофемашинами. Круто то, что модель переоценивается каждые 24 часа, чтобы адаптироваться к изменяющимся моделям трафика. Вы узнаете больше на этом секционном заседании re:Invent с участием Genesys PureCloud.

Хранение — защита данных

Масштабирование хранилища — это еще не половина дела: как насчет обеспечения безопасности ваших данных? Конечно, S3 предоставляет такие функции, как политики корзин, списки управления доступом или шифрование, для управления и защиты ваших корзин и объектов. Вот недавнее глубокое погружение в эти темы.

Тем не менее, ошибки могут случиться: неправильная конфигурация, удаление конфиденциального файла в неправильном месте, открытие корзины общедоступной и т. д. Посмотрим правде в глаза, это вопрос «когда», а не «если». Когда появляются эти проблемы (а в последнее время они были), единственное, что имеет значение, это то, как быстро вы можете их обнаружить и исправить: каждая секунда на счету!

Чтобы помочь организациям избежать этих проблем, мы запустили Amazon Macie на выставке re:Invent 2017. В частности, Macie использует классификатор на основе опорных векторов для классификации объектов, ваши корзины S3.

В документе говорится: «Этот классификатор, управляемый Мэйси, был обучен на большом наборе обучающих данных различных типов и оптимизирован для поддержки точного обнаружения различных типов контента, включая исходный код, журналы приложений, нормативные документы, и резервные копии баз данных. Классификатор также может обобщать свои обнаружения. Например, если он обнаружил новый тип исходного кода, который не соответствует ни одному из типов исходного кода, которые он обучен распознавать, он может обобщить обнаружение как исходный код».

Мэйси также использует машинное обучение для анализа журналов AWS CloudTrail, чтобы обнаруживать несанкционированный доступ и утечки данных. Вы можете узнать больше об этом на этом секционном заседании с участием Edmunds.com.

Хранилище — интеллектуальное многоуровневое хранение

Управление хранилищем — еще одна проблема, с которой вы быстро столкнетесь при создании платформ: больше пользователей, больше партнеров, больше данных для регистрации и т. д. Поток никогда не останавливается. Подобно вычислениям, облачное хранилище должно быть эластичным и экономичным, а это именно то, к чему стремился Amazon S3 с момента своего запуска.

С годами были введены дополнительные классы хранения:

Ледник Амазонки (2012 г.), недорогой сервис хранения архивов данных,
Нечастый доступ (2015) для объектов, к которым, ну, нечасто обращаются.
Однозонный нечастый доступ (2018 г.), экономия дополнительных 20% за счет снижения избыточности.

В духе AWS разработчики теперь могут автоматизировать миграцию своих объектов S3 из одного класса в другой, написав Конфигурации жизненного цикла.

Неизбежное вскоре произошло с запуском Intelligent Tiering на re: Invent 2018. Джефф Барр говорит: Этот класс хранения включает два уровня доступа: частый доступ и нечастый доступ. Оба уровня доступа обеспечивают такую же низкую задержку, как и класс хранилища Standard. За небольшую плату за мониторинг и автоматизацию S3 Intelligent-Tiering отслеживает шаблоны доступа и перемещает объекты, к которым не обращались в течение 30 дней подряд, на уровень редкого доступа. Если к данным обращаются позже, они автоматически возвращаются на уровень частого доступа. Итог: вы экономите деньги даже при изменении шаблонов доступа, без влияния на производительность, без операционных накладных расходов и без платы за извлечение.

Вы можете узнать больше об интеллектуальном распределении по уровням в этом секционном заседании re: Invent с участием Pinterest.

Сеть — Мониторинг безопасности

Аналогичная проблема возникает для сетевой безопасности. Делать все возможное, чтобы держать варваров в страхе, недостаточно. Рано или поздно произойдет взлом, будь то их или ваш собственный, и вам лучше быть готовым обнаружить его, зарегистрировать, исправить и провести подробный криминалистический анализ, чтобы убедиться, что это не повторится.

К сожалению, создание надежной системы мониторинга безопасности довольно сложно, даже в разумных масштабах: регистрация, анализ, адаптация к новым угрозам, исправление и т. д. Это совершенно новая платформа для создания и управления…

По этой причине мы запустили Amazon GuardDuty на выставке re:Invent 2017. Джефф Барр говорит: Основываясь на множестве общедоступных и сгенерированных AWS каналов данных и на основе машинного обучения, GuardDuty анализирует миллиарды событий в поисках тенденций, закономерностей и аномалий, которые являются распознаваемыми признаками того, что что-то не так. Вы можете включить его одним щелчком мыши и увидеть первые результаты в течение нескольких минут.

Как только результаты будут доступны, они могут быть автоматически обработаны для исправления либо с помощью вашего собственного кода, либо с помощью сторонних решений. Вы можете узнать больше об этом в этом обзоре re:Invent 2018, в котором показано, как расширить GuardDuty с помощью популярных решений, таких как Splunk и другие.

Аналитика — очистка данных

Как только вы будете достаточно довольны своей инфраструктурой хранения, вы можете начать принимать данные, каталогизировать их, очищать и подготавливать к аналитике. Как вы наверняка знаете, если вы работаете с данными, этот шаг может занять до 80% вашего времени… что подтверждается поднятием рук каждый раз, когда я задаю вопрос!

Первоначально клиенты создавали свои собственные решения, собирая такие сервисы, как Amazon S3, Amazon EMR, AWS Glue и другие. Чтобы упростить задачу (опять же), мы анонсировали Формирование озера AWS на re:Invent 2018.

Аналитика — потоковые данные

При работе с потоковыми данными в режиме реального времени любые задержки при извлечении информации должны быть сведены к минимуму. Поскольку Amazon Kinesis является предпочтительным способом приема потоковых данных, мы добавили возможности машинного обучения в Amazon Kinesis Data Analytics — расширение Kinesis, позволяющее выполнять SQL-запросы к потоковым сообщениям. На данный момент доступны обнаружение горячих точек и обнаружение аномалий.

Вы можете узнать больше об услуге в этом обзоре re:Invent с участием Autodesk.

Отчетность — аналитика машинного обучения

Как упоминалось в начале этой статьи, большая часть машинного обучения на самом деле посвящена одному: использованию прошлых данных для ответов на будущие бизнес-вопросы. Таким образом, было бы неплохо, если бы мы могли просто извлекать информацию из этих данных по мере того, как мы их визуализируем, вместо того, чтобы проходить обычный цикл построения модели, прогнозирования и т. д.?

Это именно то, что теперь предлагает Amazon QuickSight благодаря ML Insights, новой функции, предварительно представленной на re:Invent 2018. На данный момент вы можете обнаруживать аномалии, прогнозировать будущие тенденции и создавать естественный язык. повествования, описывающие ваши информационные панели.

Я думаю, что это захватывающий новый способ использования машинного обучения без каких-либо знаний: вы можете узнать больше об этом в этом обзоре re:Invent.

Вывод

Как видите, под капотом AWS все чаще используется машинное обучение. Это не только делает сервисы умнее, но и экономит массу времени и сложности: можете ли вы представить, что вам нужно создавать что-то из этого самостоятельно?

Я не особо заглядываюсь в хрустальные шары, но надеюсь увидеть значительный прогресс в этом направлении в ближайшие годы. Нет никаких причин, по которым машинное обучение нельзя сделать столь же распространенным, как и все остальное, и так и должно быть.

Несколько лет назад в re:Invent доктор Вернер Фогельс представил странный новый сервис под названием AWS Lambda со слайдом, говорящим: «Нет сервера, которым легче управлять, чем отсутствие сервера». Многим из нас потребовалось некоторое время, чтобы понять, что он имел в виду, и теперь мы видим, как это бессерверное видение становится реальностью.