Клонирование голоса, GAN, адаптивная скорость обучения и многое другое

В этой статье мы рассмотрим некоторые из лучших проектов машинного обучения с открытым исходным кодом в 2019 году по рейтингу MyBridge.

Клонирование голоса в реальном времени (13,7K ⭐️)

Этот проект представляет собой реализацию бумаги SV2TTS с вокодером, который работает в реальном времени. Используя это репо, можно клонировать голос за 5 секунд для генерации произвольной речи в реальном времени.



Трехэтапная структура глубокого обучения SV2TTS позволяет создавать числовое представление голоса из нескольких секунд звука.



UGATIT: неконтролируемые генерирующие сети внимания с адаптивной нормализацией уровня-экземпляра для преобразования изображения в изображение (4,4 КБ)

Это реализация U-GAT-IT TensorFlow. В статье, на которой он основан, предлагается метод реализации неконтролируемого преобразования изображения в изображение с добавлением нового модуля внимания и новой обучаемой функции нормализации на сквозной основе.



Модуль внимания направляет модель на более важные области, следовательно, различая между исходным и целевым доменами на основе карты внимания, полученной вспомогательным классификатором. Функция AdaLIN (Adaptive Layer-Instance Normalization) помогает модели контролировать степень изменения формы и текстуры с помощью изученных параметров.



Радам: Разница в скорости адаптивного обучения и за ее пределами (1,9 тыс. ⭐️)

Это реализация следующего документа:



Авторы предлагают РАдам, вариант Адама. Это достигается путем исправления вариативности адаптивного процесса обучения. Авторы использовали задачи классификации изображений, языкового моделирования и нейронного машинного перевода для получения экспериментальных результатов.



Тратьте меньше времени на поиск и больше времени на строительство. Подпишитесь на еженедельное погружение в самые важные новости, лучшие обучающие программы и самые интересные проекты из мира глубокого обучения.

Dlrm: реализация модели рекомендаций глубокого обучения (DLRM) (1,7 тыс.)

Это современная модель рекомендаций по глубокому обучению (DLRM) с реализациями, доступными в PyTorch и Caffe2.



Модель имеет специализированную схему распараллеливания, которая использует параллелизм модели для таблиц внедрения для переноса ограничений памяти. Это позволяет использовать параллелизм данных для горизонтального масштабирования вычислений от полносвязных слоев.



TecoGAN (1,3 тыс. ⭐️)

Это репо содержит код для ТЕмпорально согласованной GAN.



В статье предлагается супер-разрешение состязательного обучающего видео, которое приводит к временным согласованным решениям без ущерба для пространственной детализации. Он также предлагает потерю Ping-Pong, которая может удалить временные артефакты в повторяющихся сетях без снижения качества восприятия.



Мегатрон-ЛМ (1,1 тыс. ⭐️)

Репозиторий Megatron - это продолжающийся исследовательский проект по обучению больших, мощных языковых моделей-трансформеров в больших масштабах. В настоящее время он поддерживает параллельное моделирование многоузлового обучения GPT2 и BERT.



В настоящее время он способен обучать 72-слойную языковую модель GPT2 с 8,3 миллиардами параметров с 8-сторонней моделью и 64-канальным параллелизмом данных на 512 графических процессорах. Он также обучает BERT Large на 64 графических процессорах V100 за 3 дня. Megatron получил оценку сложности языковой модели 3,15 и оценку SQuAD F1 90,7.

TensorNetwork (1 тыс. ⭐️)

TensorNetwork - это библиотека с открытым исходным кодом для реализации алгоритмов тензорной сети. Это тензорная сетевая оболочка для TensorFlow, JAX, PyTorch и NumPy.



Тензорные сети - это разреженные структуры данных, которые в настоящее время применяются в исследованиях машинного обучения. Разработчики пока не рекомендуют использовать инструмент в производственной среде.



Python_autocomplete (708 ⭐️)

Это проект, который был запущен для проверки того, насколько хорошо LSTM может автозаполнить код Python. Он основан на TensorFlow.



Баффало (365 ⭐️)

Buffalo - это быстрый и масштабируемый, готовый к работе проект с открытым исходным кодом для рекомендательных систем. Он эффективно использует системные ресурсы и, следовательно, обеспечивает высокую производительность на машинах с низкими характеристиками.



Реалистичные-нейронные-говорящие-модели-головы (312 ⭐️)

Это реализация статьи «Немногочисленное состязательное изучение реалистичных моделей нейронной говорящей головы». В статье предлагается модель, позволяющая создавать персонализированные фотореалистичные модели говорящей головы. Его цель - синтезировать фотореалистичные персонализированные изображения головы с учетом набора ориентиров на лицах.



Это применимо в телеприсутствии, видеоконференцсвязи, индустрии спецэффектов и в многопользовательских играх. Предлагаемая система способна инициализировать параметры как генератора, так и дискриминатора индивидуально для каждого человека. Это позволяет процессу обучения быстро использовать несколько изображений.



Смотря вперед

Заглядывая в 2020 год, мы, безусловно, ожидаем появления еще более интересных проектов с открытым исходным кодом, поскольку инструменты машинного обучения станут более продвинутыми и более простыми в реализации.



Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.