Я следую руководству по мультимаркировке жанров фильмов из https://www.analyticsvidhya.com/blog/2019/04/predicting-movie-genres-nlp-multi-label-classification/
Я использую этот учебник для создания тега прогнозирования для регистрации жалоб. В моем случае я помечаю «Жанр» для реестра жалоб, например, 1 жалоба может иметь много ярлыков/тегов жанра). Например: Жалоба №1 имеет несколько жанров = Гарантия, Кондиционер.
Я дошел до стадии, когда я вызываю функцию multilablebinarizer(), чтобы пометить фильм «Жанр».
Моя проблема заключается в следующем:
Общее количество уникальных жанров = 55 (см. скриншот ниже) image.png
Я запустил функцию Multilabel_binarizer и преобразовал целевую переменную «Жанр» в y.
Вопросы:
Я встречаю только y (166,49). Если я правильно понимаю, существует только 49 жанров, а не 55 уникальных жанров.
Я получаю сообщение об ошибке: C:\Users\LAUJ3\Documents\Python Project\env\lib\site-packages\sklearn\multiclass.py:74: UserWarning: Label not 47 присутствует во всех обучающих примерах. warnings.warn("Ярлык %s присутствует во всех обучающих примерах." %
Функция inverse_transfrom результата multilabel_binarizer не имеет смысла. Ожидается появление метки жанра вместо тарабарщины multilabel_binarizer.inverse_transform(y_pred)[3]
y_pred[3] Out[57]: array([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0])
multilabel_binarizer.inverse_transform(y_pred)[3] Out[58]: (' ', ',', 'a', 'c', 'e', 'g', 'i', 'n', 'o', «р», «т»)
Я не знаю, что пошло не так. Заранее благодарны за Вашу помощь.