Каков эффект присвоения одной и той же метки кучке предложений в doc2vec? У меня есть набор документов, по которым я хочу изучить векторы с помощью gensim для задачи классификации «файлов», где файл относится к набору документов для данного идентификатора. У меня есть несколько способов маркировки, и я хочу знать, в чем будет разница между ними и какой из них лучший -
Берем документ d1, присваиваем тегам метку
doc1
и тренируемся. Повторите для другихБерем документ d1, присваиваем тегам метку
doc1
. Затем разделите документ на предложения и присвойте его тегам меткуdoc1
, а затем тренируйтесь как с полным документом, так и с отдельными предложениями. Повторите для других
Например (не обращайте внимания на то, что предложение не токенизировано) -
Document - "It is small. It is rare"
TaggedDocument(words=["It is small. It is rare"], tags=['doc1'])
TaggedDocument(words=["It is small."], tags=['doc1'])
TaggedDocument(words=["It is rare."], tags=['doc1'])
- Аналогично предыдущему, но также назначьте уникальный ярлык для каждого предложения вместе с
doc1
. Полный документ содержит все теги предложений вместе сdoc1
.
Пример -
Document - "It is small. It is rare"
TaggedDocument(words=["It is small. It is rare"], tags=['doc1', 'doc1_sentence1', 'doc1_sentence2'])
TaggedDocument(words=["It is small."], tags=['doc1', 'doc1_sentence1'])
TaggedDocument(words=["It is rare."], tags=['doc1', 'doc1_sentence2'])
У меня также есть несколько дополнительных категориальных тегов, которые я бы назначил. Итак, что было бы лучшим подходом?