SPLENDID проект компьютерного зрения превращает вашу фотографию в 3D !!!!!

Ваше фото говорит с вами!

Просто УДИВИТЕЛЬНО, правда? Я был так же удивлен, как и вы, ребята. Этот фантастический проект был выполнен четырьмя великими исследователями Мэн-Ли Ши, Ши-Ян Су, Йоханнес Копф и Цзя-Бинь Хуанг на Конференции IEEE по компьютерному зрению и распознаванию образов (CVPR). , 2020.

Хотите попробовать это на своих фотографиях? Ничего страшного, если у вас совершенно нет представлений о компьютерном зрении и CNN, просто следуйте моему шагу в разделе настройка ниже, чтобы запустить весь код в блоке по этой ссылке. ! Я рекомендую настроить Colab, так как для обучения требуется определенное количество ресурсов вашего компьютера, а Colab кэширует за вас.

Настраивать:

Запустите весь код перед этим блоком кода и перетащите все фотографии, которые вы хотите сделать трехмерными, в выделенную папку image, затем запустите блок кода, чтобы импортировать загруженные изображения.
Затем просто запустите последний блок кода ниже:

!python main.py --config argument.yml

и вам нужно будет подождать 2–5 минут для каждого обучающего пакета, в зависимости от характеристик вашего компьютера и атрибутов изображения.

3. Тогда вы получите РЕЗУЛЬТАТ!

Вы можете найти свои результаты в указанной области. Он будет выводить пять выходных визуальных элементов, которые включают карту глубины, оцененную MiDaS, окрашенную трехмерную сетку и демонстрацию трехмерного видео по кругу, качанию и движению с увеличением. Достаточно просто, да? Продолжайте читать, если хотите узнать логику этого!

Теория:

Как машина может предсказать это 3D-изображение только по 2D-фотографии? Я имею в виду, что для каждого объекта на фотографии, если вы хотите «увидеть» то, что находится за ним, вы должны каким-то образом представить его как человека. Когда люди видят фотографию, они не только видят ее как статичное изображение, но и воспринимают ее как живой трехмерный объект и даже составляют воображаемую сцену или вызывают какие-то воспоминания. Но как машина справляется с такой сложной концепцией? Может ли оно «представить» ??

Что ж, машина не может вообразить, но она может «учиться» до «вообразить», или, другими словами, , он может обрабатывать данные и вывод как человек. По сути, машины просто делают то, в чем они преуспевают: вычисления.

Обычно для ИИ изучайте изображение RGB-D, где D представляет «глубину», чтобы заново пережить 3D-эффекты. В большинстве смартфонов на рынке сейчас есть две камеры для раздельного захвата цвета и глубины изображения. Однако как насчет обычных изображений RGB без глубины? Машинка предсказывает! С помощью некоторых стандартных шагов предварительной обработки изображения мы можем легко найти график глубины (от a до d)

Имея прогнозируемую глубину, машина может найти, где находятся неоднородности глубины, затем распределить их по категориям и сгруппировать по разным цветовым участкам (от e до f).

После всей предварительной подготовки мы собираемся восстановить трехмерное зрение по нашей двухмерной фотографии. Самый важный инструмент, который мы используем, называется Многослойное изображение глубины (LDI).

По краям пиксель двумя сторонами соединены резким перепадом (а). Программа сначала разрезает соединение капли на зеленую и красную области (b), мы называем их силуэтом переднего плана и силуэтом фона, порождает область синтеза на основе силуэта фона или область контекста (c), а затем сливается с моделью.

Теперь, когда у нас уже есть две области (область контекста и область синтеза), ученые используют три восстанавливающих агента для выполнения задачи рисования: сеть окраски краев, сеть рисования цветом и сеть рисования глубины. Вы можете ознакомиться с приведенными ниже ресурсами, чтобы подробно узнать, как работают эти сети рисования.

Сеть рисования краев восстанавливает контур между областью контекста и областью синтеза, чтобы предсказать заблокированные края. Затем машина использует сеть окраски цвета и сеть рисования глубины, чтобы представить заблокированный цвет и глубину соответственно. После этого мы передаем результат обратно в модель LDI, и Bingo! У нас есть результат!

Без лишних слов, поиграйте с моделью и оживите свои воспоминания!

SPLENDID проект компьютерного зрения превращает вашу фотографию в 3D !!!!!

Ваше фото говорит с вами!

Настраивать:

Теория:

Справочная информация и ресурсы:

Соответствующие проекты:

Бумага и справочная информация:

SPLENDID проект компьютерного зрения превращает вашу фотографию в 3D !!!!!

Ваше фото говорит с вами!

Настраивать:

Теория:

Справочная информация и ресурсы:

Соответствующие проекты:

Бумага и справочная информация:

Похожие вопросы