Кажется, что каждый бизнес использует или планирует использовать искусственный интеллект (ИИ), захватывающую технологию, основанную на машинном обучении (МО). Создание решений AI/ML вручную сложно, отнимает много времени и может быть сложным в производстве и обслуживании, что требует специальных навыков специалистов по данным и инженеров AI/ML. В довершение всего, опытные специалисты по данным и инженеры по машинному обучению стоят дорого, и их трудно найти на рынке. Чтобы AI/ML полностью реализовал свою потенциальную ценность, компаниям нужен способ преодолеть эти проблемы; предприятиям необходимо превратить AI/ML из ремесленного ремесла в эффективный промышленный процесс. Автоматизированное машинное обучение AutoML обещает решить эти проблемы за счет массовой автоматизации, сокращения или устранения потребности в знаниях в области обработки данных и оптимизации развертывания и эксплуатации решений AI/ML.

В машинном обучении (в том числе и в искусственном интеллекте) специалисты по данным обучают алгоритмы, известные как «модели», для решения проблем путем изучения данных без явного указания, как это сделать. Затем они или инженеры-специалисты MLOps развертывают и поддерживают эти модели в производственной среде. AutoML — заманчивая идея, которая активно разрабатывается не менее восьми лет. Его цель — оптимизировать процесс машинного обучения до такой степени, чтобы обучение, развертывание и обслуживание моделей можно было выполнять в автоматическом режиме без ручного вмешательства или с минимальным вмешательством.

Рассмотрим созданный вручную процесс машинного обучения, показанный на диаграмме ниже.

Первым шагом является определение проблемы. Далее, чтобы получить данные, которые будут использоваться для обучения модели машинного обучения. Эти данные предварительно обрабатываются и разрабатываются для извлечения лучших сигналов, которые помогают модели делать точные прогнозы. Эти сигналы, известные как признаки, вводятся в алгоритм выбора, выбираются и настраиваются для получения наилучшей результирующей модели. Развертывание оптимизированной модели в производственной среде и ее мониторинг слишком часто выполняются ситуативным образом, который может не иметь преимуществ передового опыта и операционных гарантий против распространенных ошибок. Кроме того, есть еще несколько вещей, которые выполняются на протяжении всего процесса: специалист по обработке и анализу данных обеспечивает этичное и законное использование AI/ML, защищает решение от предубеждений, объясняет технические решения, принятые решением AI/ML, пользователю. бизнес-пользователь и обеспечивает конфиденциальность и безопасность данных.

Чтобы полностью автоматизировать этот процесс AI/ML, AutoML должен включать каждый из этих шагов. Ранние предложения AutoML не соответствовали этой цели, предлагая лишь частичное покрытие и полуавтоматизацию, но базовое программное обеспечение и облачные технологии значительно продвинулись за последние пять лет. Учитывая текущую нехватку специалистов по данным и инженеров-специалистов по MLOps, пришло время пересмотреть доступные предложения AutoML и переоценить их возможности.

Чтобы определить, превратился ли AutoML в надежную технологию, я провел опрос тринадцати популярных платформ:

· Amazon SageMaker AutoML

· Автоматическое обучение Scikit

· Авто_ВиМЛ

· Azure AutoML

· Блоки данных AutoML

· Датаробот

· EvalML

· Google Вертекс ИИ

· Беспилотный искусственный интеллект H20

· IBM АвтоИИ

· MathWorks AutoML

· SAS AutoML

· ТПОТ

Затем я провел экспериментальные эксперименты с Data Robot, H2O без драйверов AI и Azure AutoML и оценил их по 30 параметрам. В то время как первые два являются одними из лидеров рынка в области AutoML, третий был выбран как потенциальный разрушитель рынка из-за его необычной модели ценообразования. Подробный обзор моих выводов будет предметом следующей статьи. В этой статье я подытожу результаты своего общего обзора предложений AutoML и результаты трех углубленных обзоров. Они представлены под следующими заголовками:

· Поддерживаемые типы задач

· Млопс

· Ограждения против сноса

· Беспристрастный, честный и объяснимый ИИ

· Расходы

· Человеческое вмешательство

Наконец, я сопоставляю текущее состояние AutoML с процессом машинного обучения, чтобы сравнить видение с текущей реальностью и ответить на вопрос, действительно ли AutoML готов к реальным случаям использования.

Поддерживаемые типы задач. В настоящее время большинство платформ AutoML поддерживают контролируемое и неконтролируемое обучение. При обучении с учителем алгоритм изучает шаблоны из размеченных данных и делает новые прогнозы. Примером может служить прогноз текущей рыночной стоимости недвижимости на основе исторических продаж в этом районе. При неконтролируемом обучении алгоритм изучает шаблоны из немаркированных данных. Примером может служить группировка клиентов со схожими покупательскими привычками. В рамках контролируемого обучения поддерживаются классификация, регрессия (линии тренда), временные ряды, обработка естественного языка (NLP) и обработка изображений. Это охватывает достаточно широкий спектр бизнес-задач. Этот список будет только расширяться в ближайшем будущем, чтобы включать больше типов проблем.

При традиционном ручном подходе специалист по данным выполняет предварительную обработку данных, разработку функций, обучение модели, выбор и настройку гиперпараметров на основе предварительно выбранного алгоритма. AutoML использует совершенно другой подход. Он запускает несколько параллельных процессов, каждый из которых выполняет эти шаги для разных алгоритмов и комбинаций функций. Некоторые называют это «турниром», в котором каждый параллельный процесс, представляющий отдельную модель, соревнуется за звание чемпиона. По окончании турнира лучшая модель доступна для запуска в производство. В качестве альтернативы, лучшие модели турнира могут быть объединены в «ансамбль» для получения результатов, которые лучше, чем у отдельных моделей-чемпионов. Однако ансамбли не всегда могут быть оптимальными для производственных систем, поскольку они могут быть ресурсоемкими и, следовательно, дорогими. Ансамбль также медленнее, чем его соответствующее решение с одной моделью, поскольку он должен запускать все составляющие его модели каждый раз, когда он вызывается для создания нового прогноза. Пользователь системы AutoML должен определить показатели для сравнения производительности различных моделей, в том числе определить, является ли скорость выполнения приоритетом или важнее качество результатов (например, точность прогнозов).

MLOps. После разработки модель необходимо развернуть в рабочей среде, чтобы сделать ее доступной для реальных приложений. Процесс производства моделей AI/ML включает в себя три категории задач — DevOps, разработку интерфейса прикладного программирования (API) и облачную инженерию или задачи локальной инфраструктуры. Инструменты, передовой опыт и процессы, обеспечивающие быструю и эффективную доставку программных решений, называются DevOps. Интерфейс прикладного программирования — это механизм, с помощью которого прогноз модели машинного обучения используется авторизованными мобильными приложениями, веб-сайтами, бизнес-процессами или конвейерами для предоставления бизнес-решений. Облачная или локальная инфраструктура необходима для размещения API модели и обеспечения надежного и экономичного обслуживания. Все такие задачи автоматизированы тем, что называется MLOps. Многие ведущие платформы AutoML, появившиеся в отрасли, тесно интегрированы с инструментами MLOps. Это позволяет развертывать и размещать модели машинного обучения одним нажатием кнопки, тем самым избавляя специалистов по данным от необходимости полагаться на инженеров MLOps. Платформы AutoML, разработанные в академических кругах, обычно не имеют интеграции с MLOps, что может быть серьезным недостатком или дополнительными затратами на интеграцию, если они будут использоваться в производственных системах.

Защита от дрейфа. Дрейф возникает, когда развернутая модель не может отразить меняющиеся реалии базовых данных. В качестве крайнего примера модель AI/ML учится предсказывать рыночную стоимость объектов недвижимости на основе исторических данных до пандемии. После начала пандемии большая часть рабочей силы начинает работать из дома, что приводит к повышению спроса на большие дома и снижению спроса на офисные помещения, несмотря на то, что зарплаты не изменились. Предыдущая модель продолжала делать прогнозы, не соответствующие новым реалиям.

Модели могут подвергнуться разрушению из-за дрейфа после того, как они будут запущены в производство. Ухудшение выходных данных модели представляет собой значительный бизнес-риск, и его необходимо обнаруживать и устранять. При обнаружении дрейфа разрабатываются модели «претендентов», которые лучше отражают новые реалии, и новый «чемпион» запускается в производство. Несколько платформ MLOps предоставляют эту функциональность в виде автоматизированного или полуавтоматического процесса. Это будет иметь большое значение для превращения AI/ML в надежное бизнес-решение.

Справедливый и объяснимый искусственный интеллект. Современные решения искусственного интеллекта этически и, во многих случаях, юридически обязаны решать вопрос о несправедливой предвзятости в своих моделях. Они также должны объяснять свои прогнозы таким образом, чтобы их мог понять бизнес-пользователь или регулирующий орган. Многие платформы AutoML предоставляют инструменты для выявления и устранения систематической ошибки в данных. Они также предоставляют инструменты, чтобы сделать модели объяснимыми.

Стоимость. Важным фактором, определяющим рентабельность инвестиций (ROI) AutoML, является его стоимость. Сюда входят расходы на лицензирование и стоимость базовой облачной или локальной инфраструктуры. К сожалению, ни одна из коммерческих платформ AutoML не раскрывает свои цены. Это затрудняет расчет рентабельности инвестиций без обсуждения с их отделами продаж. Единственным исключением является Microsoft Azure AutoML; он не взимал с меня никаких лицензионных сборов авансом. Однако существуют затраты на базовую облачную инфраструктуру, которые взимаются ежемесячно. Если капитальные затраты являются проблемой, Azure AutoML или другие поставщики с аналогичной моделью ценообразования могут быть хорошими вариантами.

Вмешательство человека. Хотя современный самолет может работать на автопилоте, ему все равно нужен опытный пилот, который будет руководить полетом. Существуют определенные входные данные и указания, которые необходимы системе автопилота от ее пользователя-человека, который в конечном итоге несет ответственность за самолет. Точно так же AutoML нуждается в специалисте по данным, чтобы наблюдать за процессом и участвовать в определенных задачах и решениях. Важными из них являются определение проблемы, сбор и разработка данных, обнаружение и устранение предвзятости, конфиденциальность данных, этичное и законное использование ИИ, сообщение модели и ее результатов бизнес-пользователям и регулирующим органам, мониторинг и устранение дрейфа и утверждение развертывания новой модели в производство. AutoML смещает роль исследователя данных в сторону принятия решений более высокого уровня, но не устраняет необходимость понимать «параметры полета» моделей или то, как интерпретировать информационные панели «приборов полета».

Основной процесс машинного обучения. Типичный процесс AutoML состоит из нескольких этапов, как показано на следующей схеме. Шаги имеют цветовую кодировку, указывающую на уровень автоматизации, достигнутый AutoML. Зеленым цветом обозначены полностью автоматизированные шаги, желтым — полуавтоматические шаги, а красным — шаги, выполняемые вручную. Определение проблемы остается ручным шагом, а сбор данных в лучшем случае полуавтоматизирован. Эти платформы автоматизировали следующие три этапа предварительной обработки, разработки функций, обучения моделей и настройки гиперпараметров, которые составляют основу процесса машинного обучения. В большинстве сценариев результаты процесса без кода были на уровне или даже лучше, чем у решений, которые кодируются на заказ без использования AutoML.

Благодаря этим последним достижениям AutoML превратился в надежную технологию производственного уровня. Это позволяет быстро разрабатывать решения AI/ML без написания кода, развертывать одним щелчком мыши, легко обслуживать и повышать уверенность в результатах решения. Это окажет преобразующее влияние на то, как компании подходят к AI/ML по следующим причинам:

· Он ускоряет процесс разработки и сопровождения, значительно повышая производительность опытных специалистов по данным и сокращая требуемую численность персонала, а также сокращая время выхода на рынок.

· Он предоставляет возможности для начинающих специалистов по данным внутри организации, тем самым уменьшая нехватку навыков в области обработки данных и сокращая расходы.

· Это повышает качество решений AI/ML, позволяя специалистам по данным сосредоточиться на вопросах более высокого уровня, таких как справедливость и объяснимость модели.

· Это устраняет необходимость в специализированных инженерах MLOps.

· Более высокие показатели успешности проектов, более быстрое время выхода на рынок и большая уверенность в результатах решения AI/ML открывают его для более широкого внедрения в бизнесе.

Вывод.AI/ML – захватывающая технология, но ее реализация может быть сложной, трудоемкой и дорогостоящей, в первую очередь из-за высокой стоимости или отсутствия на рынке специализированных методов обработки данных и навыков MLOps. AutoML решает эти проблемы за счет массовой автоматизации процессов разработки, развертывания и обслуживания. Благодаря быстрой разработке без кода, развертыванию одним щелчком мыши, простоте обслуживания и повышению уверенности в результатах решения AutoML предлагает способ оптимизации и индустриализации AI/ML. Мой глубокий анализ некоторых из ведущих решений AutoML на рынке приводит к выводу, что технология действительно достигла совершеннолетия и способна предоставлять решения реального мира производственного уровня.