Поэтому я использую показатель BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно, чтобы сопоставить с другими моделями.
Я думаю, что такие настройки, как наборы разработчика, наборы тестов и гиперпараметры, выполнимы. Однако шаг предварительной обработки, который я использую, отличается от существующих моделей, поэтому мне интересно, можно ли сравнить оценку BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.
https://arxiv.org/pdf/1804.08771.pdf решает проблему сообщения BLEU и призывает переключиться на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что могу использовать метрику оценки SacreBLEU в своей модели.