Я обучил быструю текстовую модель с учителем. Я использовал библиотеку Python pyfasttext для прогнозирования модели. Пример: у меня есть такие данные.
text - label
The meeting is planned - event
The work should be finished - task
Здесь модель правильно предсказывает метку. когда планируется или рабочие слова встречаются в предложении. Но у меня есть список предложений, которые не связаны с обученными данными. Например: Собака - это животное
res = model.predict_proba_single('the dog is an animal\n')
выход:
[(u'event', 0.49999999904767284)]
Выходная вероятность должна быть равна 0 или не иметь метки. Потому что предложение не относится ко всем ярлыкам. Этикетки мультиклассовые. Я привел пример только двух.
То же самое происходит и в классификаторе scikit SGD.
Как предотвратить этот неверный прогноз?