Я работаю с анализом настроений с использованием классификатора NB
. Я нашел информацию (блоги, руководства и т. Д.) О том, что корпус обучения должен быть сбалансированным:
- 33,3% положительных;
- 33,3% Нейтрально
- 33,3% отрицательно
Мой вопрос:
Почему corspus
нужно сбалансировать? Теорема Байеса основана на вероятности причины / случая. Итак, для целей обучения разве не важно, что в реальном мире, например, отрицательные твиты составляют только 10%, а не 33,3%?