Это было в 2006 году, когда мы работали над классным проектом. Профессор попросил нас внедрить Анализ настроений в устных беседах или диалогах. Как вы, возможно, знаете, большинство исследований по анализу настроений изначально проводилось на текстовых наборах данных, например. онлайн-обзоры продуктов, обзоры фильмов, сообщения в социальных сетях. Основная задача этого задания, как и любого другого проекта машинного обучения и понимания естественного языка (NLU), заключалась в том, чтобы найти хороший источник данных, которые мы можем обучить и оценить наши алгоритмы. на..

Наборы данных для исследования диалогов:

Были доступны некоторые наборы данных для исследования разговорных языковых систем или диалогов. Это были телефонные разговоры или журналы вызовов, где вы можете услышать, как клиенты жалуются на продукты, которые они получили, или просят возмещения, технической поддержки и т. д..

Однако при использовании некоторых из этих наборов данных возникли некоторые очевидные проблемы. Во-первых, вам нужно слушать часы и часы записей звонков, прежде чем вы сможете найти, может быть, один или два примера, которые явно эмоциональны. Большинство примеров, которые вы найдете в такого рода естественных телефонных разговорах, имеют тенденцию быть очень тонкими или мягко выраженными. Это не то, что ваш алгоритм может легко подобрать.

Другой проблемой была также аннотация данных. Большинство моих одноклассников и коллег сами вручную маркировали данные, решая, когда клиент звучит сердитым, разочарованным и т. д. Этот процесс не только занимает очень много времени, но и очень субъективен. Например, если вы попросите двух или трех комментаторов пометить один и тот же диалог, чтобы определить эмоции в нем, вы будете очень удивлены тем, что даже 2–3 комментатора часто не могут придумать последовательную маркировку.

Для любого проекта машинного обучения важно иметь хороший источник данных с достаточным количеством обучающих примеров и получать данные, аннотированные правильными метками классов для обучения и тестирования наших алгоритмов. Лично мне никогда не нравилось аннотировать данные вручную: это трудоемко и очень субъективно. Поэтому, когда мы начали работать над этим классным проектом, я знал, что должен придумать умную идею или решение, чтобы преодолеть некоторые из этих проблем.

Анализ юмора в телевизионных ситкомах:

Однажды я смотрел по телевизору свою любимую программу F.R.I.E.N.D.S. Где-то в глубине души я подумал, что мне еще нужно закончить классный проект (помните, анализ настроений в устных разговорах). Именно в этот момент мне вдруг пришло в голову, что подождите секунду.. это разговорные разговоры или диалоги, а юмор или смех — это своего рода чувства. Так почему бы мне не использовать этот набор данных?

Предварительно помеченный контент

Если подумать, в этом действительно есть смысл. Каждый раз, когда кто-то шутит или актеры говорят что-то смешное, вы можете услышать смех на заднем плане. Таким образом, эти диалоги уже предварительно аннотированы или предварительно помечены. Мне не нужно было самому решать, что смешно, а что нет. Но кто-то уже поставил эти метки здесь, в самих данных.

Частота и интенсивность юмора

Другим преимуществом использования этого набора данных была частота и интенсивность юмора. В отличие от телефонных разговоров или журналов вызовов (где едва ли можно найти 1–2 примера сентиментов в 1 час записи разговора), можно найти несколько шуток даже в 5-минутном ролике ДРУЗЕЙ или любого другого ситкома для это важно. Кроме того, это обученные профессиональные актеры, которые эффективно используют свою мимику и вокальные интонации, выражая юмор. Таким образом, особенности, которые вы можете уловить (будь то голос или выражение лица), часто являются яркими индикаторами юмора.

Анализ юмора в F.R.I.E.N.D.S (EMNLP 2006):

Есть конференция по НЛП, которая называется EMNLP (Эмпирические методы обработки естественного языка), крайний срок которой истек примерно в то же время, когда мы работали над этим классным проектом. Поэтому, когда у нас были готовы отчеты по проектам, я решил просто отправить их туда. Когда его приняли к публикации, я помню некоторые комментарии рецензентов, в которых они говорили "это гениальная идея, анализировать юмор в телевизионных ситкомах"..

Что меня больше всего взволновало в этом проекте, так это не то, что он посвящен ДРУЗЬЯМ или юмору в частности. контент из телевизионных программ и фильмов в качестве источника данных для обучения моделей машинного обучения или моделей понимания языка.

Стажировка в SONY, Япония (2008 г.):

Мой интерес к работе в этой области еще больше укрепился, когда всего 2 года спустя у меня появилась возможность пройти стажировку в SONY, Япония. Я работал с исследовательской группой в Токио над рекомендацией музыки. Именно во время этой стажировки я смог ясно представить потенциальные отраслевые приложения искусственного интеллекта / машинного обучения в области Медиа и развлечения. Также во время этой стажировки я понял, что алгоритмы, которые мы разрабатывали (будь то поисковая или рекомендательная система), они не должны работать на настольных компьютерах и серверах, но это то, что мы можем напрямую подключить или встроить в наши Smart TV, автомобильные медиаплееры, Игровые приставки и другие устройства для домашних развлечений. Сегодня мы можем заметить эту тенденцию в области встроенного искусственного интеллекта, над которой работает большинство компаний, производящих бытовую электронику, чтобы подключать приложения искусственного интеллекта / машинного обучения непосредственно к бытовой технике и потребительским электронным устройствам.

Ранние проблемы и современное состояние:

Еще в 2006–2008 годах было много практических проблем, связанных с реализацией некоторых из этих идей. Например, если мы хотели зафиксировать такие визуальные особенности, как жесты или мимика в F.R.I.E.N.D.S. тогдашняя программа могла легко превратиться в масштабный десятилетний исследовательский проект. Сегодня у нас есть ряд программных библиотек, доступных для задач глубокого обучения, компьютерного зрения, обработки изображений (например, PyTorch, Keras, TensorFlow, OpenCV, OpenPose), а также предварительно обученные модели. (Coco-SSD, Mobile-Net, Pose-Net) и общедоступные наборы данных (такие как ImageNet, Kinetics), которые позволяют быстро построить несколько прототипов или MVP за пару дней. или недели максимум..

С другой стороны, большинство групп по науке о данных и аналитике, с которыми я недавно разговаривал или с которыми сотрудничал, часто с большим энтузиазмом относятся к техническим деталям или деталям реализации, таким как алгоритм, платформа развертывания, инженерные услуги, обучение модели, настройка параметров и т. д., а не к ядру. идея или сама предметная область. Для меня, если идея увлекательна и достаточно интересна, реализация и выполнение часто следуют естественным образом и представляют собой просто вопрос соединения частей воедино. Процесс компиляции git-кода или вызов Python SDK и API-интерфейсы REST в Jupyter Notebook сами по себе могут быть неинтересными, если только проблема, которую мы пытаемся решить с помощью всех этих библиотек и инструментов, не является захватывающей. данные, которые вы пытаетесь пометить, содержат видеоролики с показов мод, на которых красивые модели в ярких платьях ходят по подиуму Милана. Спросите мою команду, я не шучу! :-)

Объем и возможности:

Существует разнообразный контент в виде телевизионных программ, фильмов, онлайн-видео, которые мы потенциально можем использовать в качестве источника данных в наших экспериментах с искусственным интеллектом и машинным обучением. Если вы посмотрите, например, только на телевизионные программы, у нас есть: спортивные каналы, выпуски новостей, видео с показов мод, музыкальные / танцевальные видео, боевики, комедии, драмы, детские анимационные фильмы, даже все те документальные фильмы, которые мы видим на каналах National Geographic или Discovery. Удивительно, что вы потенциально можете создать со всеми этими данными!

Ниже приведены лишь несколько примеров забавных приложений, над которыми я недавно работал:

  1. Вычислительная генерация музыки с использованием жестов рук
  2. Распознавание спортивной активности с использованием трансферного обучения
  3. Обнаружение объектов для идентификации видов животных в фильмах о дикой природе
  4. Обнаружение объектов для идентификации известных персонажей фильмов и мультфильмов
  5. Эффект хромакей для замены фона в режиме реального времени
  6. Съемка движений тела и поз в танцевальных и боевиках
  7. Съемка выражений лица из комедийных фильмов
  8. Отображение выражений лица в анимированных персонажах
  9. Передача художественного стиля для создания визуальных эффектов (VFx)

Приведенные выше варианты использования охватывают не только различные жанры видео (например, спорт, музыка, анимация, комедии, документальные фильмы о дикой природе и т. д.), но и различные алгоритмы, такие как : обнаружение объектов, классификация изображений, передача обучения, генеративные нейронные сети, передача стиля, сегментация видео, распознавание жестов / выражений лица и т. д..

Ссылки: