Я изучаю использование предварительно обученной модели BERT ('bert-base-uncased') для извлечения контекстуализированных кодировок на уровне слов из группы предложений.
Обозначение словесных элементов разбивает некоторые слова в моем вводе на подсловные единицы. Возможно, это тривиальный вопрос, но мне было интересно, какой способ был бы наиболее разумным объединить выходные кодировки для токенов подслов в кодировки на уровне слов.
Разумно ли усреднение кодировок подслов? Если нет, есть ли лучшая альтернатива?