Уф, ладно. После написания части 1 этой серии статей, посвященной более глубокому изучению ландшафта искусственного интеллекта и машинного обучения, мне потребовалось сделать глубокий вдох.

Я встретил так много замечательных компаний, организаций и инструментов для маркировки, генерации и подготовки данных - это произвело на меня впечатление, но в моем путешествии также возник ключевой вопрос: теперь, когда у нас есть все необходимое для подготовки наших наборов данных, что дальше?

Введите обучение. Это ключевая часть рабочего процесса машинного обучения, но я мало о ней знал. Во время работы с Фрицем я жил на стороне умозаключений, поэтому переход к обучению модели был для меня чем-то вроде приключения.

Вот еще один невероятный список инструментов и платформ - они предназначены для того, чтобы брать помеченные предварительно обработанные наборы данных с платформ в части 1 и обучать их готовым к эксплуатации моделям машинного обучения. Некоторые из этих инструментов включают в себя и другие замечательные функции, поэтому я постараюсь охватить и их. Давайте прямо сейчас!

ClusterOne

ClusterOne - это обучающая платформа для глубокого обучения, которая дает вам простые (и масштабируемые) возможности для обучения ваших моделей на распределенных графических процессорах и процессорах без настройки или обслуживания. Они воспринимают эту платформу как операционную систему ​​для глубокого обучения. У них есть ряд различных решений, включая облачные, локальные и даже SaaS-платформу для предприятий.

У них также есть хороший каталог контента, который поможет вам начать работу и добиться успеха с их платформой, включая вебинары, блог и группу Slack. Вот один веб-семинар, который мне особенно понравился:

Датабрики

Databricks - это единая аналитическая платформа, разработанная первоначальными создателями Apache Spark. Их платформа состоит из 3 элементов:

  • Рабочее пространство: рабочее пространство позволяет объединить науку о данных и инженерию, облегчая обучение и развертывание моделей. Совместимость со всеми основными / знакомыми инструментами, языками и навыками. Поставляется через интерактивные записные книжки или API.
  • Среда выполнения: инструмент среды выполнения помогает машинным обучающимся и разработчикам готовить чистые данные в масштабе, а также непрерывно обучать и развертывать модели машинного обучения для различных приложений.
  • Облачный сервис: полностью управляемая облачная инфраструктура - идея состоит в том, чтобы избавиться от хлопот, связанных с разработкой и поддержанием сложности инфраструктуры. Предназначен для обеспечения безопасности и защиты данных, а также позволяет группам машинного обучения уделять больше внимания инновациям.

Databricks также организует Spark + AI Summit, ежегодную конференцию для сообщества Apache Spark.



РАССВЕТСкамья

DAWNBench - это набор тестов для обучения (и вывода) моделей глубокого обучения. Этот проект разработан в Стэнфорде и включает в себя интересную серию соревнований, в рамках которых машинные обучающиеся и специалисты по данным могут представлять модели в классификации изображений (с наборами данных ImageNet и CIFAR10) и в ответах на вопросы (SQuAD).

Пакет измеряет следующие эталонные показатели: стоимость обучения, задержку вывода и стоимость вывода по различным стратегиям оптимизации, архитектурам моделей, программным фреймворкам, облакам и оборудованию. Вот краткое изложение их первого конкурса, состоявшегося в 2018 году:



Hyperopt

Hyperopt - это библиотека Python, предназначенная для помощи в оптимизации гиперпараметров для алгоритмов и моделей машинного обучения. В частности, есть два алгоритма, которые в настоящее время реализованы с Hyperopt: случайный поиск и дерево оценок парзена.

Этот проект в основном размещен на GitHub, где вы найдете действительно хорошую документацию, руководства и многое другое. Вот базовое руководство, которое поможет вам начать работу:



Лямбда-лаборатории

Lambda Labs - компания, занимающаяся аппаратной / облачной инфраструктурой, специализирующаяся на рабочих станциях, серверах, ноутбуках и облаке графических процессоров, созданных для глубокого обучения. Одна особенно полезная особенность всего их оборудования и услуг заключается в том, что все они предустановлены со всеми фреймворками машинного обучения, от TensorFlow до Caffe2.

Они также предлагают Lambda Stack, программный инструмент для управления установкой новых версий фреймворка, обновлениями и т. Д. У них также есть хороший блог с набором технических руководств, тестов, обновлений компании и т. Д. Вот классная идея по реализации обнаружения объектов с помощью SSD в TensorFlow:



Весло

PaddlePaddle - это платформа для глубокого обучения с открытым исходным кодом, разработанная китайским технологическим гигантом Baidu. Что отличает PaddlePaddle от других, так это то, что он использует инфраструктуру распределенных вычислений Baidu, что позволяет значительно сократить затраты на вычисления и гибкость для обучения крупномасштабных разреженных моделей.

PaddlePaddle также имеет удобный инструмент визуализации для глубокого обучения, который позволяет командам наблюдать за данными по эффективности обучения. Кроме того, у них есть встроенная система обучения с курсами глубокого обучения, онлайн-инструментом для разработки и очными тренингами для китайских разработчиков, студентов и т. Д.

Вот пример динамической гистограммы, используемой для визуализации распределения параметров:

Бумажное пространство

Paperspace - это облачная платформа графического процессора (с API), предназначенная для создания и поддержки приложений следующего поколения и конвейеров облачного машинного обучения. Есть 3 основных продукта:

  • Gradient - торговая марка Простая инфраструктура для машинного обучения и анализа данных. Это набор инструментов для исследования данных, обучения нейронной сети и выполнения вычислительных задач на GPU. Включает записные книжки Jupyter в 1 щелчок и модуль Python, чтобы вы могли запускать весь свой код в облаке графического процессора Paperspace.
  • Core - как следует из названия, это основной инструмент Paperspace. Это их полностью управляемая облачная платформа GPU для предприятий. В комплекте с интерфейсом управления, возможностью подключения к существующим сетям и рядом возможных интеграций.
  • PaperspaceAPI: набор инструментов Paperspace для разработчиков, который поможет автоматизировать различные функции в вашей учетной записи Paperspace. Первоначально доступен на Javascript, в будущем планируется добавить больше языков.

Вот классное видео о градиенте:

Trifacta

Трифакта - это платформа для подготовки и очистки данных, ориентированная на корпоративных клиентов. Подготовка и очистка данных - важный шаг к тому, чтобы ваша модель действительно обучалась в соответствии с вашими намерениями. На их веб-сайте четко указано, что данные сегодня беспорядочные и разнообразные, а их инструменты помогают аналитикам, инженерам и специалистам по обработке данных готовить данные любого типа, где бы они ни находились.

Их платформа Wrangler включает 4 основные функции:

  • Интерактивное исследование - автоматические визуализации на основе содержания данных и контекста
  • Прогнозирующая трансформация - каждое взаимодействие с платформой Trifecta приводит к предсказанию. Каждый щелчок, перетаскивание или выбор оценивает имеющиеся данные и предоставляет ранжированный список предлагаемых преобразований данных.
  • Интеллектуальное выполнение - каждый шаг процесса записывается и отслеживается автоматически, чтобы помочь оптимизировать выполнение обработки данных.
  • Совместное управление данными - поддержка потребностей в безопасности, управление метаданными и многое другое. Обеспечивает гибкость в том, как организации управляют своими данными

Trifacta также имеет обширную библиотеку ресурсов, включая вебинары, руководства пользователя, видео и многое другое. Вот одно видео, которое мне особенно понравилось, в нем показано, как некоммерческая организация Tipping Point Community из района Залива использовала Trifacta и Tableau для борьбы с бедностью в районе Сан-Франциско:

Желтоперый

Yellowfin - это интегрированная платформа для анализа данных, которая, проще говоря, делает многое. Инструменты и поддержка для автоматического анализа, рассказывания историй, совместной работы. Большинство этих инструментов кажутся более близкими к тренировочному процессу. Таким образом, хотя это не тренировочная платформа как таковая, здесь есть много интересных вещей, которые могут быть полезны на этапе обучения рабочего процесса. Вот их основные инструменты:

  • Сигналы - «Узнайте, чего не хватает на ваших информационных панелях». Автоматизированный анализ информационной панели, который отправляет персонализированные сигналы, показывающие, какие изменения данных имеют значение
  • Истории - «Повысьте популярность ваших аналитических инструментов». Предлагает возможность рассказывать истории о данных в разных областях вашей организации.
  • Информационные панели. Информационные панели на базе искусственного интеллекта позволяют получить ключевую информацию: какие данные нужно анализировать? Какие результаты являются наиболее статистически значимыми? Эта интеллектуальная панель управления призвана ответить на эти вопросы
  • Обнаружение данных - инструмент для совместной работы, который помогает визуализировать данные, которые можно использовать в вашей организации. Полученными здесь результатами можно поделиться с другими инструментами.
  • Подготовка данных - электронные таблицы, веб-API, базы данных; все, что вам нужно для извлечения и подготовки данных из различных бизнес-источников

У Yellowfin также есть удобный блог, в котором публикуются обновления компании, отраслевой анализ и многое другое. Вот хороший пост, в котором резюмируются и обсуждаются некоторые почему, стоящие за их набором инструментов:



Обсудите этот пост в Hacker News и Reddit.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.