Смещение при преобразовании оценки достоверности CMU Sphinx в вероятность

Я пытаюсь преобразовать вывод распознавателя CMU Sphinx (т.е. список ‹гипотез (то есть фраза), оценка (в журнале)›, полученная путем настройки test_ps_nbest.c) в следующую форму: список ‹гипотез (то есть фраза),« вероятность »(между 0 и 1) ›

Тривиальный метод, который я использую сейчас, выглядит следующим образом:

  1. Разделите каждую оценку уверенности на языковой вес (например: 11).
  2. Нормализовать список оценок достоверности в домене журнала
  3. Вероятность выхода = exp (нормализованная оценка достоверности)

Проблема в том, что вероятность выхода из вышеуказанного метода смещена. Есть ли у вас какие-нибудь предложения, которые я могу использовать, чтобы получить смещение в вероятности?

Пример метода, который я должен реализовать, чтобы исправить смещение:

вектор ‹двойной› getBias (вектор ‹строка› фразы, вектор ‹двойной› logConfidenceScores)

Пример ввода для обсуждения выше:

‹" ОН ПОЛУЧИЛ НАШУ ГОЛОВУ, СЕРДЦЕ ЛЕГКОЕ И ОН ЗАМЕТИЛ ЕГО ", -43278›

‹" ОН ЗАБЕЖАЛ НА НАШИ ДЕНЬГИ НА НАШИХ КЛАССАХ И ОТМЕТИЛ ЭТО ", -43449›

‹ОН ПОЛУЧИЛ СИЛУ СЕРДЦА ЛЕГКОГО И ОН ОТМЕТИЛ ЭТО», -43368 ›


person Niketan    schedule 02.06.2012    source источник


Ответы (1)


A trivial method which I am using now is as follows:
Divide each confidence score by language weight (eg: 11)

Во-первых, это не показатель уверенности, а результат. Почему вы разделяете? Оценка в списке тоже акустическая, языковой вес здесь не имеет никакого смысла.

Normalize the list of confidence score in log domain

Это тоже бессмысленно из-за огромной массы вероятностей, которую вы не учитываете.

Output probability = exp(normalized confidence score)

Последовательность действий не имеет никакого математического смысла, как ни странно, хорошего результата у вас не получилось.

Если вам нужна оценка достоверности высказываний, вы можете сначала рассмотреть теорию:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.93.6890&rep=rep1&type=pdf

person Nikolay Shmyrev    schedule 03.06.2012