Универсальный кодировщик предложений для схожести текста нескольких предложений

Я вычисляю сходство между двумя текстами, используя универсальный кодировщик предложений

Мой вопрос в том, является ли встраивание текста на уровне предложения (которое не дает ни одного вектора, равного количеству предложений) с последующим усреднением оценок вместо простого создания вектора для каждого текста правильным способом сделать это?


person MrFoot fifer    schedule 20.02.2021    source источник


Ответы (1)


Как всегда, это зависит от вашего набора данных. Вы можете попробовать оба способа и посмотреть, какой из них дает оценки, полезные для вашего варианта использования. В общем, я обнаружил, что простая загрузка всего текста за один раз для ИСПОЛЬЗОВАНИЯ для текста до 100 слов работает нормально или даже лучше. Нет необходимости разбивать предложения, а затем усреднять.

person Adnan S    schedule 05.04.2021