Я пытаюсь решить проблему, когда у меня есть файлы, которые содержат декодированные трассировки (трассировка вызовов стека) всякий раз, когда происходит сбой (в мире Linux), и у меня есть уникальный идентификатор для отслеживания сбоя, происходящего каждый раз.
Я хочу создать классификатор, который будет учиться на предыдущих декодированных трассировках и предсказывать, существует ли уже существующий идентификатор для текущей трассировки.
Это мой первый проект по машинному обучению. Я использовал машинное обучение и провел пробную версию, используя подход CountVectorizer и TF-IDF в python.
Я хочу знать, какие функции следует учитывать для классификации и подходящий алгоритм классификации текста для решения этой проблемы.