У меня есть несколько переведенных статей, которые я хочу использовать в качестве обучающих данных для языкового перевода IBM Watson. Как правильно использовать эти статьи для обучения? Использовать ли всю статью и ее перевод как запись в параллельном корпусе, или мне нужно разбить статью на предложения и иметь пару переводов в качестве статьи?
IBM Watson Language Translation — правильный способ обучения с использованием параллельного корпуса
Ответы (1)
У вас есть два варианта.
Либо разбейте текст на пары фраз, указав от и до для каждой фразы, и создайте либо принудительный_глоссарий, либо параллельный_корпус.
Или отправьте весь переведенный текст одним файлом, чтобы создать файл monolingual_corpus.
Подробная документация доступна по адресу https://www.ibm.com/watson/developercloud/doc/language-translator/customizing.html#training, а документация по API доступна по адресу https://www.ibm.com/watson/developercloud/language-translator/api/v2/?curl#create-model а>
person
chughts
schedule
20.03.2017