Анализ моделей text2image

Мы скомпилировали различные модели text2image, которые были созданы. Мы отправили одинаковые подсказки всем моделям, чтобы сравнить, насколько хороши результаты, полученные каждой из них. В этой статье мы также добавили несколько демонстраций к перечисленным здесь моделям, с помощью которых вы сможете сами увидеть модели.

Здесь мы использовали несколько моделей. Мы использовали следующие модели:

Большой сон
Глубокое изумление
Распространение
Скольжение
РУДАЛЕ
ДАЛЛЕ-1
ДАЛЛЕ-2
Изображение

Блокноты Google Colab, на которых вы можете опробовать перечисленные выше модели (за исключением DALLE-1, DALLE-2 и Imagen, поскольку эти модели не имеют открытого исходного кода), находятся ниже.

Кроме того, к ruDALLE можно получить доступ на отдельном веб-сайте (эта модель сделана российскими исследователями из СберАй, веб-сайт принимает запросы на русском языке, поэтому используйте гугл-переводчик, чтобы делать запросы к модели)

Демонстрации моделей: Big Sleep, Deep Daze, Diffusion, GLiDE, ruDALLE

Это изображения моделей, к которым у нас есть доступ, однако у нас нет доступа к DALLE-1, DALLE-2 и Imagen, поэтому мы не можем отправить «3 яблока и 2 банана на серебряной тарелке» для идеального сравнение, поэтому мы покажем вам несколько примеров этих моделей с разными подсказками.

Вы также можете посмотреть наш GitHub-репозиторий к этой статье.

Анализ моделей text2image

Похожие вопросы