Я знаю, что в модели мешка слов мы должны удалить стоп-слова и знаки препинания перед обучением. Но в модели RNN, если я хочу выполнить классификацию текста, должен ли я также удалить стоп-слова?
Должен ли я удалять стоп-слова при подаче предложения в RNN
Ответы (1)
Это зависит от того, что классифицирует ваша модель. Если вы делаете что-то, в чем классификация поддерживается стоп-словами — например, некоторый уровень понимания синтаксиса — тогда вам нужно либо оставить стоп-слова, либо изменить свой стоп-лист, чтобы не потерять эта информация. Например, вырезание всех глаголов бытия (есть, есть, должно быть,...) может испортить НС, которая в некоторой степени зависит от структуры предложения.
Однако, если ваша классификация основана на теме (как предлагается в вашем справочнике по набору слов), то относитесь к входным данным таким же образом: удалите эти надоедливые стоп-слова, прежде чем они сожгут драгоценное время обучения.
person
Prune
schedule
19.05.2016
Это не разработка; это отдельный вопрос, зависящий от специфики вашего приложения. Пожалуйста, поднимите его соответствующим образом.
- person Prune; 26.09.2018
If you working with LSTM’s or other models which capture the semantic meaning and the meaning of a word depends on the context of the previous text, then it becomes important not to remove stopwords.
towardsdatascience.com/
- person Abhijeet; 20.12.2019