Статьи по теме speech-recognition

Публикации по теме 'speech-recognition'

Улучшение ваших моделей ИИ с помощью высококачественных данных о китайских диалектах

С расширением приложений ИИ все большее внимание уделяется распознаванию диалектов. Однако из-за огромной разницы между китайскими диалектами и мандаринским диалектом распознавание речи китайских диалектов намного сложнее. Вообще говоря, сбор речевых данных заключается в записи часто используемых предложений и слов с помощью текста, фонетических символов и голоса и интеграции записанного содержимого в базу данных. Однако многочисленные типы диалектов в Китае означают, что данные,..

Резюме: Улучшение распознавания эмоций в речи

21 июля 2023 г., ПЕРЕМЕНА СЕРДЦЕВ: УЛУЧШЕНИЕ РАСПОЗНАВАНИЯ РЕЧИ ЭМОЦИЙ ПОСРЕДСТВОМ ПРЕОБРАЗОВАНИЯ МОДАЛЬНОСТИ РЕЧИ В ТЕКСТ — Зейнаб Садат Тагави, Али Сатвати и Хоссейн Самети Распознавание эмоций по речи является сложной задачей из-за сложности и изменчивости звуковых сигналов. В статье, опубликованной как Tiny Paper на ICLR 2023, исследователи из Технологического университета Шарифа предлагают использовать преобразование модальности в текст для улучшения распознавания речевых эмоций...

Аудиовизуальная интеграция для защиты от мультимодальных атак

Эта статья основана на содержании статьи Япэн Тяня и Ченляна Сюй с CVPR 2021. Статью можно найти здесь . Кредит на использованные изображения принадлежит авторам статьи, поскольку они были взяты оттуда. Эта статья написана в рамках курса CS753 (автоматическое распознавание речи) в ИИТ Бомбея Говиндом Саджу, Адитьей Джейном и Санкалпом Парашаром и предназначена для широкой аудитории, изучающей информатику. Введение В повседневной жизни наше восприятие основано на информации,..

Как транскрибировать длинные аудиофайлы?

Использование Eden AI для расшифровки длинных аудиозаписей Аудиофайлы часто встречаются в различных приложениях, начиная от подкастов и интервью и заканчивая записями лекций или совещаний. Тем не менее, работа с длинными аудиофайлами может быть сложной задачей, если целью является расшифровка или обработка определенных сегментов контента. Здесь в игру вступает Eden AI. В этом уроке мы проведем вас через процесс разделения длинных аудиофайлов на более мелкие фрагменты, создания..

Обнаружение депрессии в эпоху Covid-19

Новая эра Новая реальность, возникшая в начале 2020-х годов из-за коронавируса, внесла изменения в то, как мы работаем. Работа на дому стала новым стандартом для многих сотрудников. За короткое время люди были вынуждены учиться работать в новых условиях, из дома, в условиях карантина, что привело к изоляции и отчуждению. Неуверенность и неуверенность в работе достигли пика, и будущее кажется трудным не только для многих сотрудников, но и для гораздо большего числа людей. Все это..

Привет, мир в распознавании речи

Урезанный непрерывный ASR в Tensorflow Этот блог поможет вам написать базовую сквозную систему ASR с использованием Tensorflow. Я рассмотрю каждый компонент минимальной нейронной сети и декодер поиска префиксного луча, необходимый для генерации читаемой транскрипции из аудио. Я сталкиваюсь с множеством ресурсов по созданию базовых систем машинного обучения для задач компьютерного зрения и обработки естественного языка, но очень мало ресурсов по распознаванию речи. Это попытка восполнить..

Насколько точна Amazon Transcribe на южноафриканском английском?

Насколько точна Amazon Transcribe на южноафриканском английском? Измерение точности транскрипции при отсутствии достоверной информации Алекса, сыграй« Богемскую рапсодию ». Хорошо, звоню бабушке! Все мы были там с нашими цифровыми помощниками, особенно те из нас, кто говорит по-английски с одним из многих акцентов, с которыми эти помощники борются (в основном, с любыми другими акцентами, кроме американского или британского). Многие облачные сервисы, такие как предлагаемые..