У меня есть данные обучения для нового типа NER в «Обучение дополнительного типа сущности» в документации по spaCy.
TRAIN_DATA = [
("Horses are too tall and they pretend to care about your feelings", {
'entities': [(0, 6, 'ANIMAL')]
}),
("Do they bite?", {
'entities': []
}),
("horses are too tall and they pretend to care about your feelings", {
'entities': [(0, 6, 'ANIMAL')]
}),
("horses pretend to care about your feelings", {
'entities': [(0, 6, 'ANIMAL')]
}),
("they pretend to care about your feelings, those horses", {
'entities': [(48, 54, 'ANIMAL')]
}),
("horses?", {
'entities': [(0, 6, 'ANIMAL')]
})
]
Я хочу обучить модель NER на этих данных с помощью spacy
приложения командной строки. Для этого требуются данные в формате JSON spaCy. Как мне записать приведенные выше данные (т.е. текст с обозначенными интервалами смещения символов) в этом формате JSON?
Посмотрев документацию по этому формату, мне непонятно, как вручную записывать данные в этом формате. (Например, можно ли разбить все на абзацы?) Также есть утилита командной строки convert который преобразует форматы данных, отличные от spaCy, в формат spaCy, но не принимает в качестве входных данных формат spaCy, подобный приведенному выше.
Я понимаю примеры кода обучения NER, в котором используется «Простой стиль обучения», но я хотел бы иметь возможность использовать служебную программу командной строки для обучения. (Хотя, как видно из моего предыдущего вопроса по spaCy , Я не понимаю, когда вы должны использовать этот стиль, а когда вы должны использовать командную строку.)
Может ли кто-нибудь показать мне пример приведенных выше данных в «формате JSON spaCy» или указать на документацию, в которой объясняется, как выполнить это преобразование.