Должен ли я удалять стоп-слова при подаче предложения в RNN

Я знаю, что в модели мешка слов мы должны удалить стоп-слова и знаки препинания перед обучением. Но в модели RNN, если я хочу выполнить классификацию текста, должен ли я также удалить стоп-слова?




Ответы (1)


Это зависит от того, что классифицирует ваша модель. Если вы делаете что-то, в чем классификация поддерживается стоп-словами — например, некоторый уровень понимания синтаксиса — тогда вам нужно либо оставить стоп-слова, либо изменить свой стоп-лист, чтобы не потерять эта информация. Например, вырезание всех глаголов бытия (есть, есть, должно быть,...) может испортить НС, которая в некоторой степени зависит от структуры предложения.

Однако, если ваша классификация основана на теме (как предлагается в вашем справочнике по набору слов), то относитесь к входным данным таким же образом: удалите эти надоедливые стоп-слова, прежде чем они сожгут драгоценное время обучения.

person Prune    schedule 19.05.2016
comment
Это не разработка; это отдельный вопрос, зависящий от специфики вашего приложения. Пожалуйста, поднимите его соответствующим образом. - person Prune; 26.09.2018
comment
If you working with LSTM’s or other models which capture the semantic meaning and the meaning of a word depends on the context of the previous text, then it becomes important not to remove stopwords. towardsdatascience.com/ - person Abhijeet; 20.12.2019