IBM Watson Language Translation — правильный способ обучения с использованием параллельного корпуса

У меня есть несколько переведенных статей, которые я хочу использовать в качестве обучающих данных для языкового перевода IBM Watson. Как правильно использовать эти статьи для обучения? Использовать ли всю статью и ее перевод как запись в параллельном корпусе, или мне нужно разбить статью на предложения и иметь пару переводов в качестве статьи?


person user2968505    schedule 18.03.2017    source источник


Ответы (1)


У вас есть два варианта.

Либо разбейте текст на пары фраз, указав от и до для каждой фразы, и создайте либо принудительный_глоссарий, либо параллельный_корпус.

Или отправьте весь переведенный текст одним файлом, чтобы создать файл monolingual_corpus.

Подробная документация доступна по адресу https://www.ibm.com/watson/developercloud/doc/language-translator/customizing.html#training, а документация по API доступна по адресу https://www.ibm.com/watson/developercloud/language-translator/api/v2/?curl#create-model

person chughts    schedule 20.03.2017