Я использую Microsoft Custom Translator и предоставляю данные для обучения в формате tmx. В моих тренировочных данных есть некоторые противоречия. Например, у меня есть данные обучения с английского на немецкий, где у меня есть повторяющиеся английские строки, но немецкий перевод этих повторяющихся английских строк отличается. Как это повлияет на Модель в таких случаях?
Конфликты в обучающих данных для Microsoft Custom Translator
Ответы (2)
Пока одна сторона отличается, это просто альтернативные переводы, которые происходят постоянно. Альтернативы будут сохранены и повлияют на вероятности в итоговой модели.
Я подробно расскажу об официальном и одобренном ответе нашего уважаемого коллеги из Microsoft Translator.
Да, это случается часто, и да, это повлияет на вероятности в итоговой модели.
Это хорошо? Это зависит.
Да, есть конфликты на стороне цели из-за разных контекстов, особенно на коротких строках, но так же часто есть другие причины и неоправданные несоответствия.
Лучше всего реально посмотреть на конфликты целевой стороны и принять исполнительное решение на основе типа конфликтов и сценария - общего набора данных, желаемого поведения и поведения общей системы.
Бывают случаи, когда конфликты на стороне цели в обучающих данных желательны или безвредны, но, по крайней мере, так же часто, они вредны или приводят к компромиссу.
Например, отсутствие акцентных знаков, неправильное кодирование, неприятные скрытые символы или другие отличия, нечитаемые человеком, такие как круглые скобки двойной ширины, конфликтующие языковые стандарты, непереведенные сегменты, обновление рекомендаций по стилю ... в большинстве случаев являются опасными конфликтами. Один вариант может заключаться в локализации юнитов, а другой - нет. И зачастую один вариант - просто плохой перевод.
Очень часто эти прямые конфликты, то есть конфликты между сегментами, имеющими один и тот же точный источник, который можно найти с помощью простого скрипта, являются подсказкой о конфликтах в более широком наборе данных, которые труднее найти, если вы не знаете, что вы находясь в поиске.
Существует компромисс между более 1: 1 трансляцией и транскреацией, между точностью и беглостью. У первого плохая репутация, но он менее рискованный и более надежный.
Решение может заключаться в том, чтобы отбросить, разрешить или нормализовать, или начать отладку набора данных и конвейера данных.
Просто выбросить все это в черный ящик и трижды бормотать In Deep Learning We Trust над Manning and Schütze 1999 только в том случае, если масштаб - частота, с которой вы тренируете пользовательские модели, а не объем обучающих данных - настолько высок, что базовая должная осмотрительность неосуществима.
Чтобы действительно знать, вам может потребоваться обучить систему с конфликтами и без них, а также оценить и сравнить.
С другой стороны, шум и конфликты на стороне источника даже не являются конфликтами и обычно безопасны и даже полезны для включения. И на них все еще стоит взглянуть.