получение кодировок на уровне слов из кодировок токенов вложенных слов

Я изучаю использование предварительно обученной модели BERT ('bert-base-uncased') для извлечения контекстуализированных кодировок на уровне слов из группы предложений.

Обозначение словесных элементов разбивает некоторые слова в моем вводе на подсловные единицы. Возможно, это тривиальный вопрос, но мне было интересно, какой способ был бы наиболее разумным объединить выходные кодировки для токенов подслов в кодировки на уровне слов.

Разумно ли усреднение кодировок подслов? Если нет, есть ли лучшая альтернатива?


person rbroc    schedule 28.01.2020    source источник
comment
Я предполагаю, что это зависит от задачи, которую вы пытаетесь решить с помощью этих вложений. Какова ваша цель?   -  person chefhose    schedule 28.01.2020
comment
довольно общая цель кодирования, мы хотим определить стимулы для ряда возможных случаев использования. Слова встречаются в сложных стимулах (нарративах), для которых у нас есть метаданные на уровне слова (например, начала каждого слова), поэтому нам нужно сохранить кодировку на уровне слова.   -  person rbroc    schedule 28.01.2020


Ответы (1)


Интуитивно ваша проблема кажется похожей на «как получить хорошее представление предложения», за исключением того, что в наши дни вы также можете использовать токен классификации предложения, чтобы получить представление предложения в большинстве моделей, основанных на преобразователях. Однако такой токен недоступен для представлений на уровне токена.

В вашем случае, я думаю, есть несколько вариантов, но из того, что я видел, люди чаще всего используют либо среднее, либо максимальное значение. Другими словами: возьмите среднее значение единиц подслова или максимальные значения. На мой взгляд, наиболее интуитивно понятным местом для начала является усреднение.

Обратите внимание, что средние значения - это всего лишь среднее значение по последовательности. Это означает, что он не является сверхточным (одно высокое и одно низкое значение будут иметь то же среднее, что и два средних значения), но, вероятно, это наиболее простой вариант.

person Bram Vanroy    schedule 29.01.2020