Компьютерное зрение, раздел искусственного интеллекта на персональных устройствах

Автор: Майкл

Компьютерное зрение (CV) - это процесс (и отрасль информатики), который включает в себя захват, обработку и анализ изображений и видео реального мира, чтобы машины могли извлекать значимую контекстную информацию из физического мира. Сегодня компьютерное зрение является основой и ключевым средством тестирования и использования моделей глубокого обучения, которые способствуют развитию искусственного интеллекта в направлении повсеместных, полезных и практических приложений. Ожидается, что в период с 2018 по 2020 год произойдёт множество достижений.

Но ... что такое компьютерное зрение?

Еще в 1955 году исследователи предположили, что могут описать процессы, из которых состоит человеческий интеллект, и автоматизировать их, создав искусственный интеллект (ИИ). Несмотря на то, что это было до первой демонстрации интегральных схем (ИС) в 1958 году, или до первого коммерчески доступного микропроцессора от Intel в 1971 году, или до появления термина графические процессоры (GPU), популяризированного Nvidia в 1999 году, серьезные исследования начались и стали одними из самых значительных. известные исследования искусственного интеллекта начались в трех различных направлениях: репликация глаза (видеть); репликация зрительной коры (описать); и копирование остальной части мозга (понять). По этим трем отдельным направлениям были достигнуты различные степени прогресса:

Чтобы увидеть:
Изобретать глаз - это наиболее успешная область. За последние несколько десятилетий были созданы датчики и процессоры изображений, которые соответствуют возможностям человеческого глаза или даже превосходят их. С более крупными, более оптически совершенными объективами, датчиком изображения и процессором нанометрового масштаба точность и чувствительность современных камер невероятны, особенно по сравнению с обычными человеческими глазами. Камеры также могут записывать тысячи изображений в секунду, определять расстояния и лучше видеть в темноте. Однако, несмотря на высокую точность результатов, они просто регистрируют распределение фотонов, приходящих в заданном направлении. Самый лучший из когда-либо созданных сенсоров камеры не мог захватывать изображения в 3D до недавних прорывов в аппаратном обеспечении (таких как прожектор с NIR). Современные камеры также предоставляют гораздо более богатую и гибкую платформу для работы оборудования с программным обеспечением.
Чтобы описать:
Видеть недостаточно, но описать непостижимо сложно. Компьютер может применить к изображению серию преобразований и, следовательно, обнаружить края, объекты, которые эти края подразумевают, а также перспективу и движение при представлении нескольких изображений и т. Д. Эти процессы включают в себя много математики и статистики, и это было невозможно до недавних достижений в области параллельных вычислений на базе графического процессора.
Чтобы понять:
Доказано, что даже развить интеллект малыша чрезвычайно сложно. Исследователь мог бы создать систему, которая распознает все сорта яблок, под любым углом, в любой ситуации, в состоянии покоя или в движении, с вынутыми укусами, чем угодно - и он все равно не сможет распознать апельсин. Если уж на то пошло, он даже не может сказать вам, что такое яблоко, съедобно ли оно, какого оно размера и для чего оно используется. Почему? Потому что мы почти не понимаем, как работает наш разум: кратковременная и долговременная память, информация от других органов чувств, внимание и познание, миллиард уроков, извлеченных из триллиона взаимодействий с миром и т. Д. Это не тупик, но это определенно сложно. придавить. Прошлые усилия по созданию всезнающих экспертных систем оказались безрезультатными. Новая архитектура искусственного интеллекта появилась примерно за последние 5 лет.

Поскольку с 2012 года начали объединяться три ключевых взаимосвязанных фактора, концепции «контекста, внимания, намерения» постепенно превращаются в компьютерное зрение, новую ветвь искусственного интеллекта:

Радикальное новое оборудование:
Достигается за счет высокопараллельного графического процессора с появлением бизнес-модели без литейных производств (например, TSMC и Nvidia). Освобождение проектирования и производства ИС от запатентованных IDM сделало оборудование более гибким и, таким образом, позволило процветать разработке программного обеспечения. Достижение TSMC массового производства 28 нм в 2012 году стало переломным моментом. Расплавление Intel на 10 нм может еще больше укрепить эту тенденцию.
Гораздо более мощные алгоритмы:
Отделение разработки программного обеспечения от производства оборудования пригласило разработчиков программного обеспечения присоединиться к революции. Когда в 1975 году на сцену вышла компания, занимающаяся исключительно программным обеспечением, такая как Microsoft, программисты с тех пор изобрели множество мощных инструментов для использования радикально нового оборудования, и одним из ярких примеров являются глубокие нейронные сети (DNN). Мы считаем сегодняшние DNN умными, потому что они могут определять новые шаблоны в своих входных потоках. Шаблоны, которые их программисты не ожидали. Производительность DNN в тестах распознавания изображений (ImageNet) демонстрирует более низкий уровень ошибок, чем люди, выполняющие те же тесты.
Огромные образцы данных:
Во время перехода от централизованной к децентрализованной архитектуре был изобретен Интернет. Благодаря Интернету становится возможным сбор и интеграция большого количества данных. Благодаря Интернету стало реальностью снабжение DNN большими данными на мощных графических процессорах. Поскольку все больше прикладных процессоров (AP) в личных устройствах используют CV с поддержкой AI, приложения CV расширяются вместе с более доступными фреймворками и инструментами.

Давайте взглянем на некоторые из наиболее заметных / предсказуемых приложений для резюме на личных устройствах:

Смартфон: возможности дифференциации

Возможности на основе искусственного интеллекта, поддерживаемые CV, быстро стали критическими факторами дифференциации на насыщенном рынке смартфонов. Эти функции пытаются превратить смартфон из пассивного служебного инструмента в более активного личного помощника.

Появление CV в смартфонах обусловлено продолжающимися инвестициями в технологии искусственного интеллекта со стороны основных производителей оборудования (Apple, Samsung, Huawei и Google) и программного обеспечения для смартфонов, а также развитием датчиков изображения (Sony), устройств обработки изображений (Sony и другие страны). -домашние ASIC) и миниатюризация модулей (Ларган и др.). В последние пару лет новые смартфоны отличались постоянным совершенствованием камер с более высоким разрешением для сбора большего количества данных для повышения общей точности приложений визуального распознавания и интеграцией технологии 3D-определения глубины для повышения надежности распознавания лиц. Google начал это со своих телефонов с поддержкой Tango, Lenovo Phab 2 и ASUS ZenFone AR, но не смог уточнить. В прошлом году (2017) Apple представила 3D-зондирование в iPhone X, надев «TrueDepth» как часть настройки фронтальной камеры. Этот шаг Apple привел к быстрому внедрению 3D-зондирования. Технология 3D-зондирования все еще далека от мейнстрима, но ожидается, что увеличение доступности и доступности 3D-датчиков для телефонов продолжится и превратится в смартфоны Android в период с 2018 по 2019 год.

Если CV в смартфоне пойдет по стопам мобильных платежей (с помощью NFC), все смартфоны премиум-класса, вероятно, будут иметь возможность CV к 2020 году, и от 30% до 50% смартфонов не премиум-класса будут иметь эту функцию до 2022 года. Распознавание лиц или жестов может стать одним из стандартные механизмы аутентификации и другие приложения для резюме появятся по мере того, как люди привыкнут к ним. Вот несколько инструкций по подаче резюме:

Оптимизация настроек камеры:
Huawei использует функцию AI на своем чипе Kirin 970 для распознавания объектов и сценариев для автоматической оптимизации настроек камеры. Камера с поддержкой ИИ может распознавать более 500 сценариев в 19 категориях (еда, группа, закат, зелень, ночная съемка и т. Д.) И настраивает такие параметры настройки камеры, как экспозиция, Международная организация по стандартизации (ISO) и насыщенность цвета. или наоборот, в реальном времени. Это позволяет пользователям получить лучший снимок для каждой категории. Он также может выполнять распознавание объектов, связанных с приложениями для покупок, и перевод текста на основе приложения, разработанного с помощью Microsoft Translator.
Расширенная реальность (AR):
Apple уже использует систему TrueDepth в iPhone X для создания Animoji, функции анимированных смайлов для социальных сетей. В будущем Apple, вероятно, расширит возможности приложений AR. Apple приобрела стартап в области компьютерного зрения Ragaind, API CV которого может анализировать фотографии и распознавать на фотографиях лица, их пол, возраст и эмоции. В 2016 году Apple приобрела стартап Emotient, который использует ИИ для распознавания эмоций людей по выражениям лиц (эта технология, вероятно, уже применялась к Animoji).
Запрос и помощник:
Google Lens, объединяющий опыт Google в области резюме и машинного обучения (ML), а также обширную графу знаний, может выполнять визуальный поиск. Используя камеру смартфона, Lens обнаруживает объект, достопримечательность или ресторан, распознает то, что он видит, и предлагает информацию и конкретные действия в отношении того, что он обнаруживает. На Google I / O 2018 Google анонсировал улучшения Lens, такие как интеллектуальный выбор текста и поиск. Он также объявил о совпадении стилей (если вы видите понравившийся предмет во время покупок, Lens может показывать не только обзоры, но и другие варианты покупок, похожие на те, которые вам нравятся). Однако до сих пор Google Lens получил довольно много резких отзывов, вероятно, из-за незрелости технологии.
Здоровье и книга рекордов:
Samsung изучает резюме с Bixby Vision. Один из вариантов использования - подсчет калорийности пищи. В идеале Bixby Vision от Samsung может подсчитывать, сколько калорий вы потребляете, просматривая фотографии еды. Для тех, кто использовал MyFitnessPal с азиатскими блюдами, попытка найти совпадения и записать калории - это PITA. Некоторые другие новые приложения для улучшения самочувствия, такие как Calorie Mama, AI, были использованы для помощи в управлении и консультировании по диете и потреблению калорий, а также для мониторинга состава продуктов питания по фотографиям продуктов с использованием глубокого обучения и компьютерного зрения.

Достижения в области компьютерного зрения и смартфонов, вероятно, будут иметь самые далеко идущие последствия. Электронная коммерция также заслуживает внимания. CV может обеспечить функцию AR для домашнего декора / меблировки или примерки одежды. Самое большое преимущество кирпича и раствора могло быстро исчезнуть.

Головной дисплей (HMD): впечатления от погружения

CV может улучшить иммерсивный опыт с помощью отслеживания глаз и положения, распознавания жестов и сопоставления виртуальных сред. Это также поможет в реалистичном наложении виртуальных вещей в реальном мире в смешанной реальности, а также в обеспечении распознавания объектов или местоположения. Однако HMD по-прежнему занимает лишь нишу на рынке с относительно небольшим количеством приложений. Чтобы представить, как HMD может использовать компьютерное зрение, чтобы изменить нашу жизнь, мы должны взглянуть на успехи нескольких основных участников:

Qualcomm: превращение смартфона в HMD:
Qualcomm имеет платформу Vision Intelligence для поддержки периферийных вычислений / вычислений на устройстве для обработки камеры и машинного обучения. С помощью собственных комплектов разработки программного обеспечения CV чипы Qualcomm (в настоящее время 10-нм) могут поддерживать камеры VR, робототехнику и камеры для смартфонов / носимых устройств. Qualcomm также сотрудничает с SenseTime (для распознавания лиц, изображений и объектов, но как китайский стартап в области искусственного интеллекта может возникнуть некоторая проблема конфиденциальности), Pilot.ai (для обнаружения, классификации и отслеживания объектов / действий) и MM Solutions (для услуг по настройке качества изображения, приобретенных ThinderSoft, другой китайской компанией, которая может вызвать озабоченность по поводу конфиденциальности).
Facebook: автономный HMD через приобретение Oculus
С тех пор, как Facebook приобрел Oculus, последние два года он инвестировал в CV. Facebook приобрел 3 компании, чтобы активизировать свои усилия в области CV: Surreal Vision (трехмерная реконструкция реальных вещей в виртуальном мире в реальном времени), Zurich Eye (позволяющая машинам ориентироваться в пространстве). в любом месте), Fayteq (добавление цифровых изображений в видео).
Microsoft: Xbox как рынок?
Следующая версия HoloLens ожидается в 2019 году и должна поддерживать облачное резюме, которое будет способно распознавать объекты в AR. Другие поставщики HMD из экосистемы Microsoft могут предложить новые устройства для MR с CV ближе к концу 2019 года для поддержки Xbox следующего поколения (ожидается, что он появится на рынке в 2020 году).

CV - важный инструмент для создания более привлекательного клиентского опыта на HMD. Это снижает агрессивный характер рекламы. Для более корпоративного использования, такого как использование HMD для обучения сотрудников или совместной работы над дизайном или экспериментами, могут потребоваться годы, чтобы создать жизнеспособную общую платформу, прежде чем будет собрано достаточное количество данных. Однако Интернет доказал, что одной рекламы достаточно, чтобы стимулировать массовые инновации. Возможность предлагать специфические для местоположения возможности и услуги через CV также поможет улучшить пользовательский опыт для HMD.

Персональные роботы: визуальное прикосновение к неоптическим сенсорным данным

В настоящее время iRobot, вероятно, первое, что приходит в голову, когда мы думаем о персональном роботе, но бот-уборщик не является ни умным, ни многофункциональным. Это далеко не тот гуманоид, который мы себе представляем. Сегодня персональные роботы ограничены данными, генерируемыми их датчиками. Некоторые из более универсальных роботов, такие как ASIMO от Honda на приведенном выше графике, не могут действительно учиться, несмотря на то, что они оснащены некоторыми камерами.

Компьютерное зрение могло все это изменить.

CV дополняет сенсорные данные в персональных роботах. Это обогатит то, как личные роботы могут взаимодействовать с окружающей средой. CV включается в роботах с помощью картографирования камеры, картографирования 3D-датчиков и моделирования локализации и алгоритмов картографирования. Его можно использовать для обнаружения краев комнат, мебели и лестниц, а также для моделирования плана этажа для роботов-уборщиков. С помощью CV персональные сервисные роботы могут распознавать разных членов семьи, чтобы поддерживать индивидуальное взаимодействие и личный контекст, а также помогать пожилым людям или людям с ограниченными возможностями в их собственных домах или в домах престарелых. Удаленное медицинское обслуживание для диагностики и текущего лечения также станет более надежным с помощью CV и ML. На выставке CES 2018 было продемонстрировано множество роботов с некоторыми реализациями CV. В ближайшие несколько лет должно появиться гораздо больше.

Голосовой персональный помощник (VPA): мультимодальные динамики

С момента его появления в 2014 году более 12000 провайдеров использовали функциональные возможности динамиков VPA для предоставления услуг, большинство из них подключили домашние решения на основе набора навыков Amazon Alexa, поскольку Google и Apple опоздали на вечеринку.

Первоначально VPA фокусировалась на возможностях воспроизведения звука и подключении к облачным музыкальным сервисам, и, как таковые, эти динамики оказались популярным музыкальным проигрывателем в домашних условиях. Однако, вдвое увеличивая подтвержденное признание этих продуктов, VPA 2-го поколения теперь добавляют камеры и экраны для преобразования в VPA на основе AI.

Поскольку Apple HomdPod еще не доказал свою полезность, на рынке VPA теперь доминирует Amazon, а Google - единственный достойный соперник, особенно в области VPA на основе ИИ:

Amazon: безусловный лидер
Компания Amazon начала тренд VPA, представив Amazon Echo в 2014 году. Он обеспечивает захват голоса в дальней зоне, беспроводное соединение (Wi-Fi и Bluetooth) и высокую качественные встроенные динамики для рендеринга звука. Это был огромный успех, но ИИ делает упор на голос, а не на визуализацию. В 2017 году Amazon анонсировала Echo Show для платформы Alexa, включающую 7-дюймовый ЖК-экран и камеру. Позднее в том же году начали поставляться Echo Spot с круглым 2,5-дюймовым экраном и камерой. Самая большая цель экранов и камер заключалась в том, чтобы позволить приложениям видеоконференцсвязи улучшить качество обслуживания клиентов, но эти два устройства также служат основой для обучения возможностям резюме Alexa. Затем Echo Look показывает, как устройства Alexa с камерой можно превратить в платформы с поддержкой CV (которые стали доступны 2018/6/6). Встроенная камера может захватывать изображение всего тела пользователя и применять ИИ для создания таких эффектов, как размытый фон. Что еще более важно, облачный ИИ может анализировать одежду пользователя и давать соответствующие рекомендации по покупкам для аналогичных стилей. Как ни странно, у Echo Look нет экрана. В результате рендеринг захваченных изображений и предложения покупок должны поступать с подключенного устройства, такого как смартфон, на котором запущено приложение Echo Look, что оставляет место для будущих улучшений. Представьте, что смешанная реальность возможна со встроенным проектором в Echo Look следующего поколения, Echo Look может проецировать рекомендованную одежду на ваше тело с камерой, записывающей это, чтобы вы могли просмотреть внешний вид или поделиться мнением с другими в режиме реального времени.
Google: лидер в области ИИ, последователь в VPA
До сих пор участие Google в VPA шло по стопам Android: компания еще не объявила о мультимодальном Pixel VPA, но вместо этого полагается на партнеры по оборудованию, такие как LG, Lenovo и другие, для предоставления мультимодальных устройств. На выставке CES 2018 LG анонсировала LG WK9, интеллектуальную колонку с поддержкой ThinQ, 8-дюймовым сенсорным дисплеем и камерой для видеоконференцсвязи для Google Assistant. Lenovo анонсировала свой Smart Display с 8-дюймовым или 10-дюймовым экраном и камерой, также работающей под управлением Google Assistant. Эти устройства еще не используют возможности CV, но с Qualcomm S624 в качестве прикладного процессора (который предназначен не только для видеоприложений в подключенных концентраторах, но и для обработки AI на основе устройств), можно представить, что эти устройства будут иметь CV либо через обновление драйвера или в следующей итерации. Однако без четких «прибыльных» вариантов использования, поскольку эти партнеры по оборудованию не могут реально зарабатывать деньги на розничной торговле, потенциал остается в некоторой степени неразвитым.

Дрон: резюме для повышения грузоперевозок и обеспечения моста до последней мили

Возможности компьютерного зрения все чаще используются в беспилотных летательных аппаратах с потенциально трансформирующим воздействием как на личные, так и на коммерческие приложения беспилотных летательных аппаратов.

Наибольшее влияние могут оказать дроны для доставки. CV может помочь улучшить автономную навигацию помимо GPS в ситуациях помощи пилоту в условиях плохой видимости. CV также может улучшить предотвращение препятствий / столкновений и анализ наилучшего расчета маршрута, поскольку CV, AI (ML) и одновременная локализация и отображение были переплетены, чтобы обеспечить трехмерное отображение и реконструкцию структуры, обнаружение и отслеживание объектов, понимание контекста, анализ местности и планирование пути.

При отправке CV также может действовать как FaceID от Apple при аутентификации. Одна из самых больших проблем, связанных с доставкой дронов на «последнюю милю», заключается в том, что кто-то может уничтожить вашу посылку. Используя CV (если пользователи предварительно зарегистрировались для распознавания лиц), определение правильного получателя больше не будет проблемой. Однако для включения этой функции может потребоваться 5G.

Подключенный дом: персонализированный Интернет вещей

Google использует CV в своих Nest Cam IQ и Nest Cam IQ Outdoor, чтобы обеспечить распознавание определенных членов семьи или друзей, а также функцию Sightline, которая идентифицирует определенные события в видеозаписи. Компания также недавно выпустила интеллектуальную камеру Google Clips, которую можно разместить по всему дому и которая будет использовать алгоритмы и резюме для съемки «особых моментов».

Тем не менее, камеры в подключенных бытовых приборах на самом деле так и не вышли за рамки функций домашней безопасности (что может вызвать беспокойство о конфиденциальности, поскольку родители могут использовать эти камеры, снимая видео без разрешения). Google представила дверной звонок Nest Hello с широкоугольной камерой для видео, способной распознавать лица, которую можно использовать как средство для отпирания (или не отпирания) двери.

Компьютерное зрение добавляет пользователям естественный способ взаимодействия с окружающим их цифровым и физическим миром. Это позволяет использовать новые модели взаимодействия устройств с пользователями и окружающей их средой, но есть две основные проблемы, связанные с CV.

Первый - технологический. Поскольку это молодая технология, не существует окончательного алгоритма для CV, и большинство популярных алгоритмов являются проприетарными. Собственные алгоритмы ограничивали возможности CV на определенных устройствах и сценариях использования. Например, роботы-уборщики iRobot не передадут резюме вашим домашним камерам видеонаблюдения. Распознавание лиц для семьи в iPhone будет согласовываться с VPA Amazon.

Вторая серьезная проблема связана с конфиденциальностью и правилами, специфичными для страны / региона (например, GDPR в Европе). Многие устройства - HMD и персональные роботы - с CV будут собирать много данных, изображений, видео об отдельных потребителях, домашнем хозяйстве, их распорядке, информацию о личных данных, информацию о детях и информацию о пациентах в приемной больницы. Ограничение поиска данных может помешать развитию резюме и искусственного интеллекта.

Компьютерное зрение будет ближайшим ИИ, с которым мы будем сталкиваться ежедневно. Блок визуальной обработки (VPU) для CV, разработки 5G и развертывания периферийных вычислений поможет CV сформировать наше будущее в следующие несколько лет.