Производительность AutoML в OpenML

Автоматизированное машинное обучение (AutoML) - это автоматизированный процесс выбора алгоритма, настройки гиперпараметров и оценки модели. Хотя он пока не может заменить всю работу высококвалифицированного специалиста по данным, он может помочь им работать быстрее и эффективнее. Более того, он предоставляет другим, таким как бизнес-аналитикам, инженерам-программистам и непрофессионалам, точку входа в создание прогнозных моделей.

OpenML или проект открытого машинного обучения - это инклюзивное движение по созданию открытой, организованной онлайн-экосистемы для машинного обучения. Короче говоря, он позволяет вам сотрудничать с тысячами других специалистов по данным, чтобы обмениваться данными, анализировать свои результаты и даже получать советы о том, как создавать более совершенные модели.

В этом посте я возьму 21 набор данных из OpenML и без каких-либо изменений запущу их с помощью AutoML для сравнения результатов. В частности, я буду использовать службу DeepLearn Auge r AutoML.

Ограничения

OpenML предлагает множество наборов данных на выбор. Первоначально я стремился собрать равное распределение наборов данных регрессии и классификации различного размера. К сожалению, OpenML не имеет подходящего количества наборов данных регрессии с опубликованными результатами, поэтому я буду придерживаться классификации. В большинстве наборов классификационных данных для оценки используется точность, поэтому я буду использовать и ее. Я также выбрал наборы данных, где 100% точность не была опубликована.

Наборы данных

Я выбрал 21 набор данных размером от 11 КБ до 78 МБ. Подробности показаны ниже.

Методология

Я запускал каждый набор данных на двух узлах c5.xlarge (4 ЦП, 8 ГБ памяти).
Все столбцы были выбраны в качестве функций, а цель была выбрана в соответствии с описанием набора данных в OpenML.
Все настройки на Auger были по умолчанию, за исключением того, что KFold был установлен на 10, чтобы совпадать с OpenML.
Все данные перемешиваются в случайном порядке перед разделением для KFold.
Каждый набор данных запускался не более 1 часа и выполнялся от 1000 до 10000 испытаний в зависимости от размера набора данных.
Точность использовалась для измерения производительности, чем выше значение, тем лучше.

Полученные результаты

Результаты представлены в таблице ниже:

В 2 случаях Auger превзошел лучшую модель OpenML, опубликованную более чем на 1%.
В 17 случаях Auger сравнялся с лучшей опубликованной моделью OpenML в пределах 1%.
В 2 случаях точность AutoML с использованием Auger была ниже лучшей опубликованной точности более чем на 1%.

Обсуждение

При запуске большинства наборов данных мне удалось достичь точности, равной точности лучшей опубликованной версии OpenML. Если предположить, что эти прогоны представляют собой модели, созданные вручную, скорее всего, с дополнительными преобразованиями и применением функций, это очень хорошо. В одном случае с набором данных MagicTelescope наблюдается улучшение почти на 8%!

Еще одно преимущество использования Auger - это пользовательский интерфейс. Возможность легко загружать мой набор данных, масштабировать и обучать всего несколькими щелчками мыши действительно экономит много времени.

Платформа Auger AutoML

Auger - это автоматизированная платформа машинного обучения, которая позволяет подключаться к любимому облачному сервису. Auger является родным для Kubernetes, поэтому он разработан с нуля с учетом ваших потребностей. Это очень эффективный способ обучения тысяч моделей параллельно, чтобы получить упорядоченный список лидеров с лучшими моделями. Затем вы можете развернуть выбранную модель в качестве производственной конечной точки для использования в реальном времени очень экономичным способом.

Узнайте больше о Auger из предыдущего поста.