Я пытаюсь преобразовать вывод распознавателя CMU Sphinx (т.е. список ‹гипотез (то есть фраза), оценка (в журнале)›, полученная путем настройки test_ps_nbest.c) в следующую форму: список ‹гипотез (то есть фраза),« вероятность »(между 0 и 1) ›
Тривиальный метод, который я использую сейчас, выглядит следующим образом:
- Разделите каждую оценку уверенности на языковой вес (например: 11).
- Нормализовать список оценок достоверности в домене журнала
- Вероятность выхода = exp (нормализованная оценка достоверности)
Проблема в том, что вероятность выхода из вышеуказанного метода смещена. Есть ли у вас какие-нибудь предложения, которые я могу использовать, чтобы получить смещение в вероятности?
Пример метода, который я должен реализовать, чтобы исправить смещение:
вектор ‹двойной› getBias (вектор ‹строка› фразы, вектор ‹двойной› logConfidenceScores)
Пример ввода для обсуждения выше:
‹" ОН ПОЛУЧИЛ НАШУ ГОЛОВУ, СЕРДЦЕ ЛЕГКОЕ И ОН ЗАМЕТИЛ ЕГО ", -43278›
‹" ОН ЗАБЕЖАЛ НА НАШИ ДЕНЬГИ НА НАШИХ КЛАССАХ И ОТМЕТИЛ ЭТО ", -43449›
‹ОН ПОЛУЧИЛ СИЛУ СЕРДЦА ЛЕГКОГО И ОН ОТМЕТИЛ ЭТО», -43368 ›