Информационный бюллетень Heartbeat: Vol. 80

API глубины ARCore, Seeing AI добавляет 5 языков, DeepSpeech от Mozilla, сегментацию портретной ориентации на устройстве, ML Kit + ARKit и многое другое.

НОВОСТИ

Приложение Seeing AI от Microsoft помогает слепым еще на пяти языках

Приложение Seeing AI, впервые выпущенное в 2017 году, представляет собой приложение для iOS, которое использует машинное обучение на устройстве, чтобы помочь пользователям с нарушениями зрения более легко ориентироваться в окружающем мире. Это достигается путем предоставления аудиоописаний для объектов и текстов, на которые пользователь направляет камеру своего iPhone. Но до сих пор приложение было доступно только на английском языке, поэтому те, кто не говорит на нем, не могли пользоваться им. На этой неделе Microsoft объявила, что Seeing AI теперь поддерживает голландский, французский, немецкий, японский и испанский языки. ["Подробнее"]

Слияние реальностей с помощью ARCore Depth API

В сообщении в блоге ранее на этой неделе Google объявил о добавлении API глубины к ARCore, что позволяет разработчикам создавать карту глубины, используя ввод с одной камеры RGB. Он работает, делая несколько изображений под разными углами и сравнивая их по мере движения телефона, и в результате может оценить расстояние до каждого пикселя. Этот API - важный шаг вперед в решении центральной проблемы технологии дополненной реальности: окклюзии или способности цифровых объектов точно появляться перед или за объектами реального мира. ["Подробнее"]

Почему использование TensorFlow Lite Micro на очень недорогих устройствах меняет все

В этой статье основное внимание уделяется интеграции TFLite Micro в Bangle.js, но, на мой взгляд, более интересным является то, что возможность запускать нейронные сети на небольших недорогих микросхемах потенциально может изменить правила игры для использования машинного обучения с внешних серверов и облако и размещение его непосредственно на устройствах, доступных для всех. ["Подробнее"]

Эксклюзивное приложение Google для записи Pixel 4 теперь доступно для Pixel 2, 3 и 3a

В недавнем выпуске этого информационного бюллетеня мы отметили впечатляющую сквозную модель автоматического распознавания речи на устройстве, которая поддерживает функцию преобразования речи в текст в приложении Pixel 4's Recorder. На этой неделе Google объявил, что мощное приложение теперь доступно и для более ранних моделей Pixel. ["Подробнее"]

Mozilla обновляет DeepSpeech с помощью модели на английском языке, которая работает «быстрее, чем в реальном времени»

Говоря о технологии преобразования речи в текст на устройстве, Mozilla обновила свою языковую модель, включив в нее одну из самых быстрых на сегодняшний день моделей автоматического распознавания речи с открытым исходным кодом. Что касается аппаратной части этого объявления, в последней версии DeepSpeech добавлена поддержка TensorFlow Lite, при этом размер пакета DeepSpeech уменьшен с 98 МБ до 4,7 МБ, а размер англоязычной модели уменьшился с 188 МБ до 47 МБ. ["Подробнее"]

Глава отдела искусственного интеллекта Facebook заявляет, что отрасль скоро «упадет в стену»

В этом разговоре между Wired и Джеромом Пезенти было много действительно интересных идей и обсуждений, но следующая цитата в ответ на вопрос о вычислительных ресурсах показалась нам особенно интересной, когда дело доходит до мобильного / пограничного машинного обучения: Не все области (ИИ) достиг предела масштабирования, но в большинстве случаев мы приближаемся к точке, где нам действительно нужно думать с точки зрения оптимизации, с точки зрения рентабельности, и нам действительно нужно посмотреть, как мы получаем максимальную отдачу от вычисление, которое у нас есть. Это мир, в который мы попадаем . ["Подробнее"]

КОД / БИБЛИОТЕКИ

[GitHub] anilsathyan7 / Портретная сегментация

Портретная сегментация с помощью mobile-unet с использованием Keras - невероятно подробный пример сегментации, оптимизированной для мобильных устройств. ["Исследовать"]

[GitHub] FirebaseExtended / MLKit-ARKit

Этот простой проект обнаруживает объекты с помощью Firebase ML Kit и помечает их трехмерными метками в дополненной реальности. ["Исследовать"]

[Исследование] SpArSe: поиск CNN с ограниченными ресурсами на микроконтроллерах с ограниченными ресурсами

Из аннотации: Этот документ ставит под сомнение идею о том, что CNN не подходят для развертывания на MCU. Мы демонстрируем, что можно автоматически разрабатывать CNN, которые хорошо обобщаются, но при этом достаточно малы, чтобы соответствовать микроконтроллерам с ограниченным объемом памяти. Наш метод поиска по разреженной архитектуре сочетает поиск нейронной архитектуры с сокращением в едином унифицированном подходе, который изучает превосходные модели на четырех популярных наборах данных IoT. CNN, которые мы обнаружили, более точны и в 4,35 раза меньше, чем предыдущие подходы, при этом соблюдая строгие ограничения рабочей памяти MCU . ["Исследовать"]

ОБУЧЕНИЕ

Посмотрите, как ML Kit и ARKit работают вместе

Команда Firebase расскажет, как объединить AR и машинное обучение на устройстве, чтобы пометить объекты метками 3D AR в реальном времени. ["Учить больше"]

Детектор изображений NSFW с использованием Create ML, Core ML и Vision

Анупам Чу с еще одним отличным учебником по машинному обучению для iOS - в нем показано, как создать приложение, которое классифицирует изображения NSFW. ["Учить больше"]

Как развернуть модели ONNX на NVIDIA Jetson Nano с помощью DeepStream

Бхарат Радж с подробным описанием DeepStream, нового SDK NVIDIA для работы с моделями машинного обучения на периферийных устройствах. ["Учить больше"]

AI в браузерах: сравнение TensorFlow, ONNX и WebDNN для классификации изображений

Зайн Саджад с отличным постом в LogRocket, в котором сравнивается классификация изображений в браузере с помощью этих трех библиотек. ["Учить больше"]

KingSoft WPS: устранение искажений изображения документа на основе TensorFlow

В этом гостевом посте в блоге TensorFlow Lite показано, как команда разработчиков WPS Office реализовала OCR на устройстве с помощью TensorFlow Lite для автоматического выравнивания деформированного изображения документа. ["Учить больше"]

Обучение модели TensorFlow Lite для мобильных устройств с помощью AutoML Vision Edge

Харшит Двиведи с учебным курсом, в котором показано, как использовать обучающую среду AutoML Vision Edge от Google для обучения пользовательской модели классификации изображений TFLite, готовой к развертыванию на мобильных устройствах. ["Учить больше"]

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное изучению зарождающегося пересечения разработки мобильных приложений и машинного обучения. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Fritz AI, платформой машинного обучения, которая помогает разработчикам учить устройства видеть, слышать, ощущать и думать. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, переходите к нашему призыву участников. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Fritz AI Newsletter), присоединяйтесь к нам на » «Slack и подписывайтесь на Fritz AI в Twitter , чтобы узнавать обо всех последних новостях в области мобильного машинного обучения.