Расшифровка трассировки с помощью машинного обучения

Я пытаюсь решить проблему, когда у меня есть файлы, которые содержат декодированные трассировки (трассировка вызовов стека) всякий раз, когда происходит сбой (в мире Linux), и у меня есть уникальный идентификатор для отслеживания сбоя, происходящего каждый раз.

Я хочу создать классификатор, который будет учиться на предыдущих декодированных трассировках и предсказывать, существует ли уже существующий идентификатор для текущей трассировки.

Это мой первый проект по машинному обучению. Я использовал машинное обучение и провел пробную версию, используя подход CountVectorizer и TF-IDF в python.

Я хочу знать, какие функции следует учитывать для классификации и подходящий алгоритм классификации текста для решения этой проблемы.


person Balaji Kulkarni    schedule 17.07.2017    source источник


Ответы (1)


приятно слышать, что это ваш первый проект по машинному обучению! Для моего первого НЛП я использую проверенный продукт Amazon. Пробовали ли вы модель Bag of Words (BOW)? И вы тоже можете попробовать N-gram. И вы можете рассмотреть возможность использования классификатора NaiveBayes и оценить свою классификацию. Тогда вы будете знать, какой алгоритм даст вам лучший алгоритм для решения проблемы.

Дополнительное чтение (если хотите): https://machinelearningmastery.com/encoder-decoder-models-text-summarization-keras/

person Tyson    schedule 12.05.2018