Классификация предложений с использованием Weka

Я хочу классифицировать предложения с помощью Weka. Моими функциями являются термины предложений (слова) и тег части речи каждого термина. Я не знаю, как атрибуты фигуры, потому что если каждый термин представить как один признак, количество признаков для каждого экземпляра (предложения) стало другим. И, если все слова в предложении представлены как один признак, как соотносятся слова и их POS-теги.

Любые идеи, как мне действовать?


person saeid6366    schedule 06.09.2012    source источник
comment
На входе у вас есть предложение со словом и POS-тегами, но что вы хотите получить на выходе? Простая двоичная классификация, в которой для данного предложения вывод равен True или False? Или у вас есть несколько меток (например, категории, по которым вы хотите классифицировать предложения)?   -  person Sicco    schedule 06.09.2012
comment
это простая проблема бинарной классификации.   -  person saeid6366    schedule 08.09.2012


Ответы (1)


Если я правильно понимаю вопрос, ответ будет следующим: чаще всего слова обрабатываются независимо от их положения в предложении и представляют предложение в пространстве признаков количеством раз, которое каждое из известных слов встречается в этом предложении. т.е. обычно для каждого слова, присутствующего в обучающих данных, имеется отдельная числовая характеристика. Или, если вы хотите использовать n-граммы, отдельную функцию для каждого n-грамма в обучающих данных (возможно, с некоторым порогом частоты).

Что касается тегов POS, может иметь смысл использовать их как отдельные функции, но только в том случае, если интересующая вас классификация связана со структурой предложения (синтаксисом). В противном случае вы можете просто добавить тег POS к слову, что частично устранит неоднозначность тех слов, которые могут представлять разные части речи.

person Qnan    schedule 07.09.2012