Я создаю классификатор текста, который будет классифицировать текст по темам.
На первом этапе моей программы в рамках очистки данных я удаляю все неанглийские слова. Для этого я использую корпус nltk.corpus.words.words(). Проблема с этим корпусом заключается в том, что он удаляет «современные» английские слова, такие как Facebook, Instagram и т. д. Кто-нибудь знает другой, более «современный» корпус, который я могу заменить или объединить с текущим?
Я предпочитаю корпус nltk, но я открыт для других предложений.
заранее спасибо