Уф, ладно. После написания части 1 этой серии статей, посвященной более глубокому изучению ландшафта искусственного интеллекта и машинного обучения, мне потребовалось сделать глубокий вдох.
Я встретил так много замечательных компаний, организаций и инструментов для маркировки, генерации и подготовки данных - это произвело на меня впечатление, но в моем путешествии также возник ключевой вопрос: теперь, когда у нас есть все необходимое для подготовки наших наборов данных, что дальше?
Введите обучение. Это ключевая часть рабочего процесса машинного обучения, но я мало о ней знал. Во время работы с Фрицем я жил на стороне умозаключений, поэтому переход к обучению модели был для меня чем-то вроде приключения.
Вот еще один невероятный список инструментов и платформ - они предназначены для того, чтобы брать помеченные предварительно обработанные наборы данных с платформ в части 1 и обучать их готовым к эксплуатации моделям машинного обучения. Некоторые из этих инструментов включают в себя и другие замечательные функции, поэтому я постараюсь охватить и их. Давайте прямо сейчас!
ClusterOne
ClusterOne - это обучающая платформа для глубокого обучения, которая дает вам простые (и масштабируемые) возможности для обучения ваших моделей на распределенных графических процессорах и процессорах без настройки или обслуживания. Они воспринимают эту платформу как операционную систему для глубокого обучения. У них есть ряд различных решений, включая облачные, локальные и даже SaaS-платформу для предприятий.
У них также есть хороший каталог контента, который поможет вам начать работу и добиться успеха с их платформой, включая вебинары, блог и группу Slack. Вот один веб-семинар, который мне особенно понравился:
Датабрики
Databricks - это единая аналитическая платформа, разработанная первоначальными создателями Apache Spark. Их платформа состоит из 3 элементов:
- Рабочее пространство: рабочее пространство позволяет объединить науку о данных и инженерию, облегчая обучение и развертывание моделей. Совместимость со всеми основными / знакомыми инструментами, языками и навыками. Поставляется через интерактивные записные книжки или API.
- Среда выполнения: инструмент среды выполнения помогает машинным обучающимся и разработчикам готовить чистые данные в масштабе, а также непрерывно обучать и развертывать модели машинного обучения для различных приложений.
- Облачный сервис: полностью управляемая облачная инфраструктура - идея состоит в том, чтобы избавиться от хлопот, связанных с разработкой и поддержанием сложности инфраструктуры. Предназначен для обеспечения безопасности и защиты данных, а также позволяет группам машинного обучения уделять больше внимания инновациям.
Databricks также организует Spark + AI Summit, ежегодную конференцию для сообщества Apache Spark.
РАССВЕТСкамья
DAWNBench - это набор тестов для обучения (и вывода) моделей глубокого обучения. Этот проект разработан в Стэнфорде и включает в себя интересную серию соревнований, в рамках которых машинные обучающиеся и специалисты по данным могут представлять модели в классификации изображений (с наборами данных ImageNet и CIFAR10) и в ответах на вопросы (SQuAD).
Пакет измеряет следующие эталонные показатели: стоимость обучения, задержку вывода и стоимость вывода по различным стратегиям оптимизации, архитектурам моделей, программным фреймворкам, облакам и оборудованию. Вот краткое изложение их первого конкурса, состоявшегося в 2018 году:
Hyperopt
Hyperopt - это библиотека Python, предназначенная для помощи в оптимизации гиперпараметров для алгоритмов и моделей машинного обучения. В частности, есть два алгоритма, которые в настоящее время реализованы с Hyperopt: случайный поиск и дерево оценок парзена.
Этот проект в основном размещен на GitHub, где вы найдете действительно хорошую документацию, руководства и многое другое. Вот базовое руководство, которое поможет вам начать работу:
Лямбда-лаборатории
Lambda Labs - компания, занимающаяся аппаратной / облачной инфраструктурой, специализирующаяся на рабочих станциях, серверах, ноутбуках и облаке графических процессоров, созданных для глубокого обучения. Одна особенно полезная особенность всего их оборудования и услуг заключается в том, что все они предустановлены со всеми фреймворками машинного обучения, от TensorFlow до Caffe2.
Они также предлагают Lambda Stack, программный инструмент для управления установкой новых версий фреймворка, обновлениями и т. Д. У них также есть хороший блог с набором технических руководств, тестов, обновлений компании и т. Д. Вот классная идея по реализации обнаружения объектов с помощью SSD в TensorFlow:
Весло
PaddlePaddle - это платформа для глубокого обучения с открытым исходным кодом, разработанная китайским технологическим гигантом Baidu. Что отличает PaddlePaddle от других, так это то, что он использует инфраструктуру распределенных вычислений Baidu, что позволяет значительно сократить затраты на вычисления и гибкость для обучения крупномасштабных разреженных моделей.
PaddlePaddle также имеет удобный инструмент визуализации для глубокого обучения, который позволяет командам наблюдать за данными по эффективности обучения. Кроме того, у них есть встроенная система обучения с курсами глубокого обучения, онлайн-инструментом для разработки и очными тренингами для китайских разработчиков, студентов и т. Д.
Вот пример динамической гистограммы, используемой для визуализации распределения параметров:
Бумажное пространство
Paperspace - это облачная платформа графического процессора (с API), предназначенная для создания и поддержки приложений следующего поколения и конвейеров облачного машинного обучения. Есть 3 основных продукта:
- Gradient - торговая марка Простая инфраструктура для машинного обучения и анализа данных. Это набор инструментов для исследования данных, обучения нейронной сети и выполнения вычислительных задач на GPU. Включает записные книжки Jupyter в 1 щелчок и модуль Python, чтобы вы могли запускать весь свой код в облаке графического процессора Paperspace.
- Core - как следует из названия, это основной инструмент Paperspace. Это их полностью управляемая облачная платформа GPU для предприятий. В комплекте с интерфейсом управления, возможностью подключения к существующим сетям и рядом возможных интеграций.
- PaperspaceAPI: набор инструментов Paperspace для разработчиков, который поможет автоматизировать различные функции в вашей учетной записи Paperspace. Первоначально доступен на Javascript, в будущем планируется добавить больше языков.
Вот классное видео о градиенте:
Trifacta
Трифакта - это платформа для подготовки и очистки данных, ориентированная на корпоративных клиентов. Подготовка и очистка данных - важный шаг к тому, чтобы ваша модель действительно обучалась в соответствии с вашими намерениями. На их веб-сайте четко указано, что данные сегодня беспорядочные и разнообразные, а их инструменты помогают аналитикам, инженерам и специалистам по обработке данных готовить данные любого типа, где бы они ни находились.
Их платформа Wrangler включает 4 основные функции:
- Интерактивное исследование - автоматические визуализации на основе содержания данных и контекста
- Прогнозирующая трансформация - каждое взаимодействие с платформой Trifecta приводит к предсказанию. Каждый щелчок, перетаскивание или выбор оценивает имеющиеся данные и предоставляет ранжированный список предлагаемых преобразований данных.
- Интеллектуальное выполнение - каждый шаг процесса записывается и отслеживается автоматически, чтобы помочь оптимизировать выполнение обработки данных.
- Совместное управление данными - поддержка потребностей в безопасности, управление метаданными и многое другое. Обеспечивает гибкость в том, как организации управляют своими данными
Trifacta также имеет обширную библиотеку ресурсов, включая вебинары, руководства пользователя, видео и многое другое. Вот одно видео, которое мне особенно понравилось, в нем показано, как некоммерческая организация Tipping Point Community из района Залива использовала Trifacta и Tableau для борьбы с бедностью в районе Сан-Франциско:
Желтоперый
Yellowfin - это интегрированная платформа для анализа данных, которая, проще говоря, делает многое. Инструменты и поддержка для автоматического анализа, рассказывания историй, совместной работы. Большинство этих инструментов кажутся более близкими к тренировочному процессу. Таким образом, хотя это не тренировочная платформа как таковая, здесь есть много интересных вещей, которые могут быть полезны на этапе обучения рабочего процесса. Вот их основные инструменты:
- Сигналы - «Узнайте, чего не хватает на ваших информационных панелях». Автоматизированный анализ информационной панели, который отправляет персонализированные сигналы, показывающие, какие изменения данных имеют значение
- Истории - «Повысьте популярность ваших аналитических инструментов». Предлагает возможность рассказывать истории о данных в разных областях вашей организации.
- Информационные панели. Информационные панели на базе искусственного интеллекта позволяют получить ключевую информацию: какие данные нужно анализировать? Какие результаты являются наиболее статистически значимыми? Эта интеллектуальная панель управления призвана ответить на эти вопросы
- Обнаружение данных - инструмент для совместной работы, который помогает визуализировать данные, которые можно использовать в вашей организации. Полученными здесь результатами можно поделиться с другими инструментами.
- Подготовка данных - электронные таблицы, веб-API, базы данных; все, что вам нужно для извлечения и подготовки данных из различных бизнес-источников
У Yellowfin также есть удобный блог, в котором публикуются обновления компании, отраслевой анализ и многое другое. Вот хороший пост, в котором резюмируются и обсуждаются некоторые почему, стоящие за их набором инструментов:
Обсудите этот пост в Hacker News и Reddit.
Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.
Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.
Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.