Автоматизированное машинное обучение (AutoML) - это автоматизированный процесс выбора алгоритма, настройки гиперпараметров и оценки модели. Хотя он пока не может заменить всю работу высококвалифицированного специалиста по данным, он может помочь им работать быстрее и эффективнее. Более того, он предоставляет другим, таким как бизнес-аналитикам, инженерам-программистам и непрофессионалам, точку входа в создание прогнозных моделей.
OpenML или проект открытого машинного обучения - это инклюзивное движение по созданию открытой, организованной онлайн-экосистемы для машинного обучения. Короче говоря, он позволяет вам сотрудничать с тысячами других специалистов по данным, чтобы обмениваться данными, анализировать свои результаты и даже получать советы о том, как создавать более совершенные модели.
В этом посте я возьму 21 набор данных из OpenML и без каких-либо изменений запущу их с помощью AutoML для сравнения результатов. В частности, я буду использовать службу DeepLearn Auge r AutoML.
Ограничения
OpenML предлагает множество наборов данных на выбор. Первоначально я стремился собрать равное распределение наборов данных регрессии и классификации различного размера. К сожалению, OpenML не имеет подходящего количества наборов данных регрессии с опубликованными результатами, поэтому я буду придерживаться классификации. В большинстве наборов классификационных данных для оценки используется точность, поэтому я буду использовать и ее. Я также выбрал наборы данных, где 100% точность не была опубликована.
Наборы данных
Я выбрал 21 набор данных размером от 11 КБ до 78 МБ. Подробности показаны ниже.
Методология
- Я запускал каждый набор данных на двух узлах c5.xlarge (4 ЦП, 8 ГБ памяти).
- Все столбцы были выбраны в качестве функций, а цель была выбрана в соответствии с описанием набора данных в OpenML.
- Все настройки на Auger были по умолчанию, за исключением того, что KFold был установлен на 10, чтобы совпадать с OpenML.
- Все данные перемешиваются в случайном порядке перед разделением для KFold.
- Каждый набор данных запускался не более 1 часа и выполнялся от 1000 до 10000 испытаний в зависимости от размера набора данных.
- Точность использовалась для измерения производительности, чем выше значение, тем лучше.
Полученные результаты
Результаты представлены в таблице ниже:
- В 2 случаях Auger превзошел лучшую модель OpenML, опубликованную более чем на 1%.
- В 17 случаях Auger сравнялся с лучшей опубликованной моделью OpenML в пределах 1%.
- В 2 случаях точность AutoML с использованием Auger была ниже лучшей опубликованной точности более чем на 1%.
Обсуждение
При запуске большинства наборов данных мне удалось достичь точности, равной точности лучшей опубликованной версии OpenML. Если предположить, что эти прогоны представляют собой модели, созданные вручную, скорее всего, с дополнительными преобразованиями и применением функций, это очень хорошо. В одном случае с набором данных MagicTelescope наблюдается улучшение почти на 8%!
Еще одно преимущество использования Auger - это пользовательский интерфейс. Возможность легко загружать мой набор данных, масштабировать и обучать всего несколькими щелчками мыши действительно экономит много времени.
Платформа Auger AutoML
Auger - это автоматизированная платформа машинного обучения, которая позволяет подключаться к любимому облачному сервису. Auger является родным для Kubernetes, поэтому он разработан с нуля с учетом ваших потребностей. Это очень эффективный способ обучения тысяч моделей параллельно, чтобы получить упорядоченный список лидеров с лучшими моделями. Затем вы можете развернуть выбранную модель в качестве производственной конечной точки для использования в реальном времени очень экономичным способом.
Узнайте больше о Auger из предыдущего поста.