Что такое Оже?

Мощное и глубокое автоматизированное машинное обучение

Что такое шнек? Ну это сверло. А орфографическая ошибка авгур - предсказывать. Помимо плохой игры слов, это еще и наш инструмент для автоматизированного машинного обучения.

Самая сложная часть большинства проектов машинного обучения - это выбор прогнозной модели и ее гиперпараметров. После сбора данных большинство специалистов по данным тратят месяцы, выбирая из различных алгоритмов прогнозирования, настраивая свои параметры (гиперпараметры) и набор функций для получения приемлемой точности. Часто при достижении этого порога данные устаревают, а основные бизнес-условия меняются.

Распространенный сценарий - это бизнес, который собирает данные для прогнозирования на основе машинного обучения. Затем они отправляют это в Google Prediction Services или в один из алгоритмов машинного обучения AWS и получают некоторые результаты. Google, Amazon и другие предлагают услуги, позволяющие оценить различные настройки гиперпараметров для выбранного алгоритма. Но специалисту по анализу данных все еще необходимо опробовать различные алгоритмы и изменить набор функций (добавить функции для определенных алгоритмов, удалить их для уменьшения размерности).

Алгоритм Ожера / поиск гиперпараметров по сравнению с другими продуктами AutoML

Оже не создавал концепцию автоматизированного машинного обучения. Для этого доступны и другие инструменты, в том числе TPOT с открытым исходным кодом и коммерческие компании, такие как DataRobot. TPOT утверждает, что использует генетические алгоритмы для исчерпания пространства поиска алгоритмов и гиперпараметров. Но мы обнаружили, что производительность этого метода очень близка к поиску по сетке (когда все алгоритмы и гиперпараметры выполняются последовательно). Auger использует более сложный подход к поиску для интеллектуального просмотра доступных алгоритмов и гиперпараметров. Хотя мы не готовы поделиться подробностями того, как мы это делаем, неоптимальность генетических алгоритмов для поиска сложных деревьев была установлена ​​в другом месте.

Одним из главных нововведений, которыми мы готовы поделиться, является то, что мы начинаем поиск алгоритмов и гиперпараметров с интеллектуальной оценки хороших вероятных значений. Это делается путем анализа представленного набора данных. Мы называем такой подход «теплым стартом». Преимущество горячего старта заключается в том, что он оптимизирует общее время поиска для наилучших комбинаций алгоритма и гиперпараметров, а также обеспечивает немедленную «достаточно хорошую» комбинацию, которую можно быстро протестировать (AutoML с другими инструментами часто может занять несколько часов или дней, чтобы получить полученные результаты). Как облачный сервис, Auger продолжает совершенствовать эвристику горячего старта на основе результатов других пользователей и наборов данных.

Помимо простого «горячего старта» первого опробованного алгоритма и опций, Auger сужает поиск алгоритмов на основе аспектов набора данных. Во многих случаях мы можем резко сократить пространство поиска оцениваемых алгоритмов.

Что касается коммерческих продуктов AutoML, мы думаем, что вы также обнаружите, что скорость Auger для получения оптимальных результатов и изначально приемлемых результатов очень хороша. Кроме того, Auger - это недорогая услуга (сейчас бесплатная бета-версия), которую вы сможете оценить без значительных затрат.

Реализации алгоритмов

Помимо выбора лучших алгоритмов, Auger предлагает несколько реализаций популярных алгоритмов прогнозирования машинного обучения. Они либо быстрее, чем более распространенные реализации, либо ранние реализации алгоритмов, которые не являются широко доступными. Примеры таких алгоритмов включают в себя: логистическую регрессию, линейную регрессию, машину линейных опорных векторов, случайный лес, градиент и бустинг Ada, дерево решений и случайный лес, а также различные наивные байесовские классификаторы.

Auger также генерирует многослойные нейронные сети с глубоким обучением для задач прогнозирования и классификации. Он даже оптимизирует топологию этих сетей для решения проблемы. Сегодня другие инструменты AutoML не делают этого.

Наконец, Auger генерирует ансамбли, комбинации базовых алгоритмов, чтобы еще больше улучшить алгоритм. Ансамбли обычно используются на заключительных этапах оптимизации производительности модели, часто комбинируя несколько лучших базовых алгоритмов.

Оже продолжает добавлять новые алгоритмы, особенно подходы к глубокому обучению, по мере появления новых методов.

Предварительная обработка данных

Единственная задача, близкая к усилиям по опробованию алгоритмов и их гиперпараметров, - это подготовка данных к обработке. Auger выполняет множество задач предварительной обработки, большинство из которых не выполняются другими автоматизированными инструментами машинного обучения. Это включает:

  • обработка отсутствующих значений
  • создание категориальных характеристик (независимо от того, определил ли пользователь их как категориальные, и обработка сценариев, в которых может быть слишком много категорий)
  • обработка разреженных объектов (например, содержащих в основном пустые значения или нули) с уменьшением размерности
  • создание нескольких функций из значений даты / времени
  • устранение признаков (на основе распределения данных)

Более подробная информация о возможностях предварительной обработки данных Auger представлена ​​здесь.

Служба прогнозирования времени выполнения

Наконец, как только модель обучена, Auger предоставляет вам конечную точку прогнозирования веб-службы для создания прогнозов или классификаций на основе новых данных, с которыми вы сталкиваетесь в своих приложениях. Это предлагает быстрый путь к использованию созданных вами моделей. Сочетание выбора алгоритма автоматизированного машинного обучения с конечными точками мгновенного выполнения сокращает типичный жизненный цикл определения необходимости использования модели в ваших приложениях с месяцев до часов.

Если вы изо всех сил пытались добиться достаточной точности прогнозов или классификации, попробуйте Auger! Мы хотим услышать, как это работает для вас. Напишите нам на [email protected] и расскажите, как это работает. Вы, вероятно, получите бесплатные консультации по науке о данных.