Для решения многих задач у нас есть мощные алгоритмы машинного обучения, которые при наличии достаточного количества данных могут обеспечить беспрецедентную производительность. Однако условие наличия большого количества универсальных и качественных данных не так легко удовлетворить.

Это особенно сложно для задач, требующих участия человека. Прямое участие людей в процессе сбора данных требует больших затрат и времени. Более того, для решения некоторых проблем требуются экспертные знания (например, оценка медицинских образцов) или контролируемая среда (например, качество продуктов питания, эксперименты со зрением). Из-за этих требований и ограничений созданные наборы данных могут быть очень маленькими и конкретными.

Большая область проблем, в которой создание наборов данных является трудоемким, выявляет масштабы, по мнению людей. Результирующие наборы данных содержат соответствие между объектами, которые мы маркируем, и воспринимаемым масштабом. Например, вкус еды (насколько сладок йогурт?), Качество изображений (как далеко зашумленное изображение от эталона?) Или даже возраст людей (каков предполагаемый возраст человека на фотографии?).

Как решить проблему?

Проблема недостатка данных может быть решена двумя способами: потратить кучу денег на сбор наборов данных с нуля или быть немного умнее и объединить уже собранные наборы данных вместе, повторно используя собранные знания.

В этой статье я расскажу о ранжировании и рейтинге, а также о том, как оба протокола могут быть смешаны вместе на примере оценки качества изображения. Собранные данные обычно используются для тренировки объективных показателей качества изображения, которые должны хорошо коррелировать с человеческим восприятием.

Код MATLAB для статьи доступен здесь, код Python доступен здесь.

Статья основана на этой статье - не проходите мимо, если хотите ознакомиться с подробностями и скрупулезно подойти к проблеме.

Как определить масштаб?

При построении шкалы мы пытаемся восстановить скрытые баллы q. Существует два способа построения такой шкалы - рейтинг или ранжирование.

Рейтинг

Мы можем ранжировать объекты парами или наборами. Здесь я сосредоточусь на парных сравнениях из-за их простоты и способности преобразовывать результаты множественных сравнений в попарные сравнения.

В парных сравнительных экспериментах испытуемый выбирает одно из двух условий по некоторому критерию. Ответы записываются в матрицу C, где каждая запись c ij - это количество раз, когда было выбрано условие Ai. по условию Aj.

Для преобразования этой матрицы сравнений в одномерную шкалу можно использовать модели Брэдли-Терри или Терстоуна. На практике обе модели производят аналогичные шкалы, но Брэдли-Терри использует асимметричное распределение Гамбеля (для кумулятивной логистической функции), а Терстон использует симметричное распределение Гаусса. Здесь я расскажу о модели Thurstone case V. Описание других случаев (I, II, III, IV) можно найти в оригинальной статье.

Модель Терстона в случае V сначала отображает ответы наблюдателя на вероятности того, что одно условие лучше другого. Затем вероятности конвертируются в расстояния. Это отображение вероятностей на расстояния осуществляется с помощью обратного нормального кумулятивного распределения. Стандартное отклонение (сигма) этого распределения определяет отображение. Обычно вероятность 0,75 одного условия, выбранного как лучшее, сопоставляется с разницей между условиями на одну единицу расстояния (рис. 3), построенная шкала затем называется шкалой Just Objectionable Difference (JOD).

Тогда задача построения шкалы трансформируется в проблему уменьшения размерности. Здесь для каждого условия Ai и Aj мы связываем разницу в их показателях качества с количеством раз, когда Ai был выбран выше Aj (и наоборот) через биномиальное распределение:

где n ij - общее количество сравнений между i и j. Затем мы используем оценку максимального правдоподобия для определения показателей качества. Поскольку качество является относительным, мы устанавливаем качество первого условия равным 0 (q1 = 0). Подробнее о масштабировании попарных сравнений смотрите здесь и здесь. Схема построения шкалы на основе парных сравнений приведена на рисунке 2.

Рейтинг

Рейтинговые эксперименты могут быть: (i) категориальными - испытуемый выбирает категорию, под которую попадает условие; (ii) кардинальный - подлежащий присвоению условию числового значения. Затем суммируются баллы по всем предметам и выдается среднее значение. Это среднее значение называется средней оценкой общественного мнения (MOS).

Теперь перейдем к качеству моделирования q через рейтинг. Диапазон шкал, используемых в рейтинговых экспериментах, устанавливается проводником эксперимента и может быть любым от 0 до 10, от 1 до 100 и т. Д. Чтобы учесть диапазон и смещение, мы вводим две переменные a и б. Мы также предполагаем, что качество, определяемое на основе рейтинговых измерений, подчиняется нормальному распределению. Для каждого скрытого качества условия i (q i) мы имеем:

где m ik - оценка, присвоенная k наблюдателем i -ому условию, а c определяет величина стандартного отклонения относительно фиксированной сигмы шума наблюдателя. Расширяя приведенное выше и вставляя формулу для нормального распределения:

Вероятность соблюдения матрицы рейтингов с записями m ik, как указано выше , затем определяется по формуле:

Объединение наборов данных вместе

Объединение наборов данных для парного сравнения несложно - выберите несколько условий в наборах данных, свяжите их с попарными сравнениями (проведите несколько экспериментов и используйте модель Терстона / Брэдли-Терри). Аналогичным образом для рейтинговых баллов выберите несколько условий из отдельных наборов данных, измерьте количество голосов за эти условия в совместном эксперименте и повторно скорректируйте исходные данные на основе относительного качества вновь измеренных условий. Но как нам продолжить объединение наборов данных, имеющих попарные сравнения и рейтинговые оценки?

Нельзя ли просто собрать вместе рейтинговые данные?

Что ж ... Участникам-людям могут быть заданы несколько другие вопросы, или эксперименты могут быть выполнены в немного разных условиях, так что сочность суши 4 в одном наборе данных может соответствовать 3 в другом просто потому, что она была оценена по сравнению с другими суши, которые пробовали в этот день.

Модель

Мы определяем задачу максимизации, в которой мы пытаемся найти скрытые оценки качества q и параметры a, b и c, связывающие парное сравнение и рейтинговые измерения с данными матриц M и C и стандартным отклонением сигмы модели наблюдателя.

Мы можем увидеть некоторые знакомые термины, то есть P (C | q) и P (M | q) определены выше. Однако здесь у нас также есть P (q) - гауссовский априор, включенный для обеспечения выпуклости.

Обратите внимание, что теперь скрытые оценки качества находятся с использованием информации как из средних оценок мнений, так и из парных сравнений. Параметр c имеет значение: если c больше 1, парные сравнения лучше для эксперимента, а если меньше 1, то хуже. Затем параметры модели могут быть найдены с оценкой максимального правдоподобия.

Тестирование модели

Рассмотрим игрушечный пример. Здесь у нас есть два набора данных, DS1 и DS2, каждый из которых имеет как попарные сравнения, так и рейтинговые измерения.

DS1 имеет 4 условия. Таким образом, матрица парных сравнений C1 равна 4x4. Обратите внимание, что условие 3 не было связано с остальными с помощью парных сравнений, однако это не проблема, поскольку оно было измерено в рейтинговом эксперименте. Остальные состояния в DS1 сравнивали 6 раз. Рейтинговые измерения собраны в матрицу 4x4 M1, т.е. условия оценивались 4 наблюдателями.

DS2 имеет 5 условий, измеренных 5 субъектами в рейтинговых экспериментах. В этом наборе данных также выделяется условие 2 - оно не оценивалось. Однако он был связан с остальными посредством попарных сравнений.

Имея два непересекающихся набора данных, мы хотим связать их вместе с помощью попарных сравнений. Ниже представлена ​​матрица C. C включает данные парных сравнений исходных наборов данных (красный и зеленый), а также дополнительные сравнения, собранные для связи двух наборов данных (синий ). Точно так же матрица M содержит объединенные данные рейтинговых экспериментов как для DS1, так и для DS2.

Теперь мы можем масштабировать DS1 и DS2 вместе, чтобы получить окончательный масштаб.

Здесь истинные оценки - это те, которые используются для создания оценок в матрицах C и M, а прогнозируемые - это оценки, полученные путем смешивания данных из C и М вместе. Оценки MOS представляют собой усредненные рейтинговые измерения, а масштабированные попарные сравнения - оценки качества, полученные только на основе парных сравнений. Обратите внимание, что точность результатов зависит от качества и количества данных. Чтобы получить лучшие результаты, мы могли бы собрать больше парных сравнений или рейтинговых измерений.

дальнейшее чтение

Это краткое изложение источников, упомянутых в статье: исходный документ, код, исходный документ модели Турстоуна, исходный документ Брэдли-Терри, масштабирование данных попарного сравнения: статья 1 и статья 2. ). Если вам нужен другой взгляд на объединение рейтингов и рейтинговых измерений, вам пригодятся эти два документа: paper 1, paper 2.