Универсальный кодировщик предложений для схожести текста нескольких предложений

Я вычисляю сходство между двумя текстами, используя универсальный кодировщик предложений

Мой вопрос в том, является ли встраивание текста на уровне предложения (которое не дает ни одного вектора, равного количеству предложений) с последующим усреднением оценок вместо простого создания вектора для каждого текста правильным способом сделать это?

python tensorflow sentence-similarity

MrFoot fifer 20.02.2021 источник

Ответы (1)

arrow_upward
0
arrow_downward

Как всегда, это зависит от вашего набора данных. Вы можете попробовать оба способа и посмотреть, какой из них дает оценки, полезные для вашего варианта использования. В общем, я обнаружил, что простая загрузка всего текста за один раз для ИСПОЛЬЗОВАНИЯ для текста до 100 слов работает нормально или даже лучше. Нет необходимости разбивать предложения, а затем усреднять.

Adnan S 05.04.2021

Универсальный кодировщик предложений для схожести текста нескольких предложений

Ответы (1)

Похожие вопросы