Должен ли я удалять стоп-слова при подаче предложения в RNN

Я знаю, что в модели мешка слов мы должны удалить стоп-слова и знаки препинания перед обучением. Но в модели RNN, если я хочу выполнить классификацию текста, должен ли я также удалить стоп-слова?

Nils Cao 19.05.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

Это зависит от того, что классифицирует ваша модель. Если вы делаете что-то, в чем классификация поддерживается стоп-словами — например, некоторый уровень понимания синтаксиса — тогда вам нужно либо оставить стоп-слова, либо изменить свой стоп-лист, чтобы не потерять эта информация. Например, вырезание всех глаголов бытия (есть, есть, должно быть,...) может испортить НС, которая в некоторой степени зависит от структуры предложения.

Однако, если ваша классификация основана на теме (как предлагается в вашем справочнике по набору слов), то относитесь к входным данным таким же образом: удалите эти надоедливые стоп-слова, прежде чем они сожгут драгоценное время обучения.

Prune 19.05.2016

comment

Это не разработка; это отдельный вопрос, зависящий от специфики вашего приложения. Пожалуйста, поднимите его соответствующим образом. - Prune; 26.09.2018

comment

If you working with LSTM’s or other models which capture the semantic meaning and the meaning of a word depends on the context of the previous text, then it becomes important not to remove stopwords.

towardsdatascience.com/ - Abhijeet; 20.12.2019

Должен ли я удалять стоп-слова при подаче предложения в RNN

Ответы (1)

Похожие вопросы