Конфликты в обучающих данных для Microsoft Custom Translator

Я использую Microsoft Custom Translator и предоставляю данные для обучения в формате tmx. В моих тренировочных данных есть некоторые противоречия. Например, у меня есть данные обучения с английского на немецкий, где у меня есть повторяющиеся английские строки, но немецкий перевод этих повторяющихся английских строк отличается. Как это повлияет на Модель в таких случаях?


person aniketgade    schedule 27.10.2020    source источник
comment
Я бы отредактировал этот вопрос так, чтобы он касался конфликтов, а не дубликатов.   -  person Adam Bittlingmayer    schedule 28.10.2020


Ответы (2)


Пока одна сторона отличается, это просто альтернативные переводы, которые происходят постоянно. Альтернативы будут сохранены и повлияют на вероятности в итоговой модели.

person Chris Wendt    schedule 28.10.2020

Я подробно расскажу об официальном и одобренном ответе нашего уважаемого коллеги из Microsoft Translator.

Да, это случается часто, и да, это повлияет на вероятности в итоговой модели.

Это хорошо? Это зависит.

Да, есть конфликты на стороне цели из-за разных контекстов, особенно на коротких строках, но так же часто есть другие причины и неоправданные несоответствия.

Лучше всего реально посмотреть на конфликты целевой стороны и принять исполнительное решение на основе типа конфликтов и сценария - общего набора данных, желаемого поведения и поведения общей системы.

Бывают случаи, когда конфликты на стороне цели в обучающих данных желательны или безвредны, но, по крайней мере, так же часто, они вредны или приводят к компромиссу.

Например, отсутствие акцентных знаков, неправильное кодирование, неприятные скрытые символы или другие отличия, нечитаемые человеком, такие как круглые скобки двойной ширины, конфликтующие языковые стандарты, непереведенные сегменты, обновление рекомендаций по стилю ... в большинстве случаев являются опасными конфликтами. Один вариант может заключаться в локализации юнитов, а другой - нет. И зачастую один вариант - просто плохой перевод.

Очень часто эти прямые конфликты, то есть конфликты между сегментами, имеющими один и тот же точный источник, который можно найти с помощью простого скрипта, являются подсказкой о конфликтах в более широком наборе данных, которые труднее найти, если вы не знаете, что вы находясь в поиске.

Существует компромисс между более 1: 1 трансляцией и транскреацией, между точностью и беглостью. У первого плохая репутация, но он менее рискованный и более надежный.

Решение может заключаться в том, чтобы отбросить, разрешить или нормализовать, или начать отладку набора данных и конвейера данных.

Просто выбросить все это в черный ящик и трижды бормотать In Deep Learning We Trust над Manning and Schütze 1999 только в том случае, если масштаб - частота, с которой вы тренируете пользовательские модели, а не объем обучающих данных - настолько высок, что базовая должная осмотрительность неосуществима.

Чтобы действительно знать, вам может потребоваться обучить систему с конфликтами и без них, а также оценить и сравнить.

С другой стороны, шум и конфликты на стороне источника даже не являются конфликтами и обычно безопасны и даже полезны для включения. И на них все еще стоит взглянуть.

person Adam Bittlingmayer    schedule 30.10.2020