Как библиотека быстрого текста Facebook обрабатывает числовые данные при вводе для векторизации слов?

Я использую Fasttext Facebook для выполнения классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставленной в качестве входных данных для векторизации слов.

Приводит ли fasttext каждое число к строке перед созданием векторов слов?

Например, 1124 до "1124"
Или какое-то другое преобразование/предварительная обработка выполняется в фоновом режиме перед обучением?

Например, 1124 на «один один два четыре»

Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?

DK818 29.10.2018 источник

Ответы (1)

arrow_upward
3
arrow_downward

Fasttext не выполняет предварительной обработки числовых токенов. Они обрабатываются как другие "слова", разделенные пробелами.

Если у вас уже нет конкретной проблемы с быстрым текстом и числами во вводе, я бы не стал беспокоиться о том, что делает быстрый текст с числами. Просто используйте его как обычно.

Если у вас много чисел, и они вызывают проблемы — это возможно, поскольку в fasttext, скорее всего, нет полезных векторов для большинства конкретных чисел — вы можете предварительно обработать ввод, чтобы заменить их на <NUMBER> или другой фиктивный токен. Таким образом, эти предложения будут одинаковыми для быстрого текста:

Я съел 1023 апельсина.
Я съел 1024 апельсина.

Хотите ли вы рассматривать их как одинаковые или нет, зависит от вашего приложения.

polm23 07.11.2018

Как библиотека быстрого текста Facebook обрабатывает числовые данные при вводе для векторизации слов?

Ответы (1)

Похожие вопросы