Пейзаж искусственного интеллекта и машинного обучения (часть 2): учебные платформы и инструменты

Уф, ладно. После написания части 1 этой серии статей, посвященной более глубокому изучению ландшафта искусственного интеллекта и машинного обучения, мне потребовалось сделать глубокий вдох.

Я встретил так много замечательных компаний, организаций и инструментов для маркировки, генерации и подготовки данных - это произвело на меня впечатление, но в моем путешествии также возник ключевой вопрос: теперь, когда у нас есть все необходимое для подготовки наших наборов данных, что дальше?

Введите обучение. Это ключевая часть рабочего процесса машинного обучения, но я мало о ней знал. Во время работы с Фрицем я жил на стороне умозаключений, поэтому переход к обучению модели был для меня чем-то вроде приключения.

Вот еще один невероятный список инструментов и платформ - они предназначены для того, чтобы брать помеченные предварительно обработанные наборы данных с платформ в части 1 и обучать их готовым к эксплуатации моделям машинного обучения. Некоторые из этих инструментов включают в себя и другие замечательные функции, поэтому я постараюсь охватить и их. Давайте прямо сейчас!

ClusterOne

ClusterOne - это обучающая платформа для глубокого обучения, которая дает вам простые (и масштабируемые) возможности для обучения ваших моделей на распределенных графических процессорах и процессорах без настройки или обслуживания. Они воспринимают эту платформу как операционную систему для глубокого обучения. У них есть ряд различных решений, включая облачные, локальные и даже SaaS-платформу для предприятий.

У них также есть хороший каталог контента, который поможет вам начать работу и добиться успеха с их платформой, включая вебинары, блог и группу Slack. Вот один веб-семинар, который мне особенно понравился:

Датабрики

Databricks - это единая аналитическая платформа, разработанная первоначальными создателями Apache Spark. Их платформа состоит из 3 элементов:

Рабочее пространство: рабочее пространство позволяет объединить науку о данных и инженерию, облегчая обучение и развертывание моделей. Совместимость со всеми основными / знакомыми инструментами, языками и навыками. Поставляется через интерактивные записные книжки или API.
Среда выполнения: инструмент среды выполнения помогает машинным обучающимся и разработчикам готовить чистые данные в масштабе, а также непрерывно обучать и развертывать модели машинного обучения для различных приложений.
Облачный сервис: полностью управляемая облачная инфраструктура - идея состоит в том, чтобы избавиться от хлопот, связанных с разработкой и поддержанием сложности инфраструктуры. Предназначен для обеспечения безопасности и защиты данных, а также позволяет группам машинного обучения уделять больше внимания инновациям.

Databricks также организует Spark + AI Summit, ежегодную конференцию для сообщества Apache Spark.

Саммит Spark + AI | Конференция по искусственному интеллекту и Apache Spark
ТЕПЕРЬ ВКЛЮЧАЕТ ПРАКТИЧЕСКИЕ ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ ИИ И ОБУЧЕНИЕ МАШИНАМ Данные и ИИ необходимо объединить: лучшие приложения ИИ… databricks.com

РАССВЕТСкамья

DAWNBench - это набор тестов для обучения (и вывода) моделей глубокого обучения. Этот проект разработан в Стэнфорде и включает в себя интересную серию соревнований, в рамках которых машинные обучающиеся и специалисты по данным могут представлять модели в классификации изображений (с наборами данных ImageNet и CIFAR10) и в ответах на вопросы (SQuAD).

Пакет измеряет следующие эталонные показатели: стоимость обучения, задержку вывода и стоимость вывода по различным стратегиям оптимизации, архитектурам моделей, программным фреймворкам, облакам и оборудованию. Вот краткое изложение их первого конкурса, состоявшегося в 2018 году:

Результаты теста глубокого обучения DAWNBench v1
Коди Коулман, Дипак Нараянан, Дэниел Канг, Питер Бейлис и Матей Захария. 20 апреля 2018 г. завершился наш… dawn.cs.stanford.edu

Hyperopt

Hyperopt - это библиотека Python, предназначенная для помощи в оптимизации гиперпараметров для алгоритмов и моделей машинного обучения. В частности, есть два алгоритма, которые в настоящее время реализованы с Hyperopt: случайный поиск и дерево оценок парзена.

Этот проект в основном размещен на GitHub, где вы найдете действительно хорошую документацию, руководства и многое другое. Вот базовое руководство, которое поможет вам начать работу:

hyperopt / hyperopt
Оптимизация распределенных асинхронных гиперпараметров в Python - hyperopt / hyperopt github.com

Лямбда-лаборатории

Lambda Labs - компания, занимающаяся аппаратной / облачной инфраструктурой, специализирующаяся на рабочих станциях, серверах, ноутбуках и облаке графических процессоров, созданных для глубокого обучения. Одна особенно полезная особенность всего их оборудования и услуг заключается в том, что все они предустановлены со всеми фреймворками машинного обучения, от TensorFlow до Caffe2.

Они также предлагают Lambda Stack, программный инструмент для управления установкой новых версий фреймворка, обновлениями и т. Д. У них также есть хороший блог с набором технических руководств, тестов, обновлений компании и т. Д. Вот классная идея по реализации обнаружения объектов с помощью SSD в TensorFlow:

Советы по реализации обнаружения объектов SSD (с кодом TensorFlow)
Обнаружение объектов с помощью Single Shot MultiBox Detector .com

Весло

PaddlePaddle - это платформа для глубокого обучения с открытым исходным кодом, разработанная китайским технологическим гигантом Baidu. Что отличает PaddlePaddle от других, так это то, что он использует инфраструктуру распределенных вычислений Baidu, что позволяет значительно сократить затраты на вычисления и гибкость для обучения крупномасштабных разреженных моделей.

PaddlePaddle также имеет удобный инструмент визуализации для глубокого обучения, который позволяет командам наблюдать за данными по эффективности обучения. Кроме того, у них есть встроенная система обучения с курсами глубокого обучения, онлайн-инструментом для разработки и очными тренингами для китайских разработчиков, студентов и т. Д.

Вот пример динамической гистограммы, используемой для визуализации распределения параметров:

Бумажное пространство

Paperspace - это облачная платформа графического процессора (с API), предназначенная для создания и поддержки приложений следующего поколения и конвейеров облачного машинного обучения. Есть 3 основных продукта:

Gradient - торговая марка Простая инфраструктура для машинного обучения и анализа данных. Это набор инструментов для исследования данных, обучения нейронной сети и выполнения вычислительных задач на GPU. Включает записные книжки Jupyter в 1 щелчок и модуль Python, чтобы вы могли запускать весь свой код в облаке графического процессора Paperspace.
Core - как следует из названия, это основной инструмент Paperspace. Это их полностью управляемая облачная платформа GPU для предприятий. В комплекте с интерфейсом управления, возможностью подключения к существующим сетям и рядом возможных интеграций.
PaperspaceAPI: набор инструментов Paperspace для разработчиков, который поможет автоматизировать различные функции в вашей учетной записи Paperspace. Первоначально доступен на Javascript, в будущем планируется добавить больше языков.

Вот классное видео о градиенте:

Trifacta

Трифакта - это платформа для подготовки и очистки данных, ориентированная на корпоративных клиентов. Подготовка и очистка данных - важный шаг к тому, чтобы ваша модель действительно обучалась в соответствии с вашими намерениями. На их веб-сайте четко указано, что данные сегодня беспорядочные и разнообразные, а их инструменты помогают аналитикам, инженерам и специалистам по обработке данных готовить данные любого типа, где бы они ни находились.

Их платформа Wrangler включает 4 основные функции:

Интерактивное исследование - автоматические визуализации на основе содержания данных и контекста
Прогнозирующая трансформация - каждое взаимодействие с платформой Trifecta приводит к предсказанию. Каждый щелчок, перетаскивание или выбор оценивает имеющиеся данные и предоставляет ранжированный список предлагаемых преобразований данных.
Интеллектуальное выполнение - каждый шаг процесса записывается и отслеживается автоматически, чтобы помочь оптимизировать выполнение обработки данных.
Совместное управление данными - поддержка потребностей в безопасности, управление метаданными и многое другое. Обеспечивает гибкость в том, как организации управляют своими данными

Trifacta также имеет обширную библиотеку ресурсов, включая вебинары, руководства пользователя, видео и многое другое. Вот одно видео, которое мне особенно понравилось, в нем показано, как некоммерческая организация Tipping Point Community из района Залива использовала Trifacta и Tableau для борьбы с бедностью в районе Сан-Франциско:

Желтоперый

Yellowfin - это интегрированная платформа для анализа данных, которая, проще говоря, делает многое. Инструменты и поддержка для автоматического анализа, рассказывания историй, совместной работы. Большинство этих инструментов кажутся более близкими к тренировочному процессу. Таким образом, хотя это не тренировочная платформа как таковая, здесь есть много интересных вещей, которые могут быть полезны на этапе обучения рабочего процесса. Вот их основные инструменты:

Сигналы - «Узнайте, чего не хватает на ваших информационных панелях». Автоматизированный анализ информационной панели, который отправляет персонализированные сигналы, показывающие, какие изменения данных имеют значение
Истории - «Повысьте популярность ваших аналитических инструментов». Предлагает возможность рассказывать истории о данных в разных областях вашей организации.
Информационные панели. Информационные панели на базе искусственного интеллекта позволяют получить ключевую информацию: какие данные нужно анализировать? Какие результаты являются наиболее статистически значимыми? Эта интеллектуальная панель управления призвана ответить на эти вопросы
Обнаружение данных - инструмент для совместной работы, который помогает визуализировать данные, которые можно использовать в вашей организации. Полученными здесь результатами можно поделиться с другими инструментами.
Подготовка данных - электронные таблицы, веб-API, базы данных; все, что вам нужно для извлечения и подготовки данных из различных бизнес-источников

У Yellowfin также есть удобный блог, в котором публикуются обновления компании, отраслевой анализ и многое другое. Вот хороший пост, в котором резюмируются и обсуждаются некоторые почему, стоящие за их набором инструментов:

Как бизнес-аналитика становится интеллектуальной | Yellowfin BI
Гостевой пост Дональда Фармера, в настоящее время руководителя TreeHive Strategy, а ранее он руководил дизайном и инновациями… www.yellowfinbi.com

Обсудите этот пост в Hacker News и Reddit.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.

Пейзаж искусственного интеллекта и машинного обучения (часть 2): учебные платформы и инструменты

ClusterOne

Датабрики

РАССВЕТСкамья

Hyperopt

Лямбда-лаборатории

Весло

Бумажное пространство

Trifacta

Желтоперый

Похожие вопросы