Как библиотека быстрого текста Facebook обрабатывает числовые данные при вводе для векторизации слов?

Я использую Fasttext Facebook для выполнения классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставленной в качестве входных данных для векторизации слов.

  1. Приводит ли fasttext каждое число к строке перед созданием векторов слов?

    Например, 1124 до "1124"

  2. Или какое-то другое преобразование/предварительная обработка выполняется в фоновом режиме перед обучением?

    Например, 1124 на «один один два четыре»

Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?


person DK818    schedule 29.10.2018    source источник


Ответы (1)


Fasttext не выполняет предварительной обработки числовых токенов. Они обрабатываются как другие "слова", разделенные пробелами.

Если у вас уже нет конкретной проблемы с быстрым текстом и числами во вводе, я бы не стал беспокоиться о том, что делает быстрый текст с числами. Просто используйте его как обычно.

Если у вас много чисел, и они вызывают проблемы — это возможно, поскольку в fasttext, скорее всего, нет полезных векторов для большинства конкретных чисел — вы можете предварительно обработать ввод, чтобы заменить их на <NUMBER> или другой фиктивный токен. Таким образом, эти предложения будут одинаковыми для быстрого текста:

  1. Я съел 1023 апельсина.
  2. Я съел 1024 апельсина.

Хотите ли вы рассматривать их как одинаковые или нет, зависит от вашего приложения.

person polm23    schedule 07.11.2018