Как использовать оценку BLEU для сравнения вашей модели с существующими моделями?

Поэтому я использую показатель BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно, чтобы сопоставить с другими моделями.

Я думаю, что такие настройки, как наборы разработчика, наборы тестов и гиперпараметры, выполнимы. Однако шаг предварительной обработки, который я использую, отличается от существующих моделей, поэтому мне интересно, можно ли сравнить оценку BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.

https://arxiv.org/pdf/1804.08771.pdf решает проблему сообщения BLEU и призывает переключиться на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что могу использовать метрику оценки SacreBLEU в своей модели.


person Minh Ung    schedule 21.04.2019    source источник


Ответы (1)


tl;dr

SacreBLEU - это не другая метрика, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU. Используйте SacreBLEU всякий раз, когда можете.

Краткая история оценки BLEU

Оценка BLEU очень чувствительна к токенизации, поэтому важно, чтобы все использовали одну и ту же. Первоначально существовала реализация Perl от 2001 г. который долгое время считался канонической реализацией BLEU. Использование скрипта вызывает множество проблем (он находится на Perl, требует, чтобы данные были в довольно непонятном формате SGM). Из-за этого (и потому что оценка BLEU довольно проста) появилось много независимых реализаций, например, в MultEval, NLTK. Их проще использовать, но из-за некоторых тонких различий в предварительной обработке данных они не дают одинаковых результатов. SacreBLEU может выполнять ту же разметку и получать те же оценки, что и исходный сценарий Perl, но считывает данные в виде открытого текста и находится на языке Python, который в настоящее время чаще всего используется в машинном переводе.

person Jindřich    schedule 23.04.2019
comment
Большое спасибо за ответы на мои вопросы! Их проще использовать, но из-за некоторых незначительных различий в предварительной обработке данных дают одинаковые результаты. Думаю, что должно было быть не сдаваться? - person Minh Ung; 24.04.2019
comment
Действительно, было. Спасибо. - person Jindřich; 24.04.2019