Я новичок в SVM. В моем проекте я использую SVM для классификации текстов. Набор данных представляет собой обзоры ноутбуков, и я делю их на два класса: «хороший обзор» и «плохой обзор». Я провел обучение, тестирование и классификацию, но есть несколько вещей, которые меня смутили, и я хочу спросить.
Ниже приведены два примера данных в формате SVM, масштабированных до [-1,1]:
1st -> 1:-0.648936 2:-0.641171 3:-0.62963 4:-0.576841 5:-1 6:-1 7:-0.894737 8:-1 9:-0.225806 10:-0.641026 11:-0.481481 12:-1 13:-1 14:-0.5 15:-0.235294 16:-0.882353 2nd -> 1:-0.457447 2:-0.668316 3:-0.111111 4:-0.386705 5:-1 6:-1 7:-0.578947 8:-1 9:0.0967742 10:-0.25641 11:-0.24183 12:0.333333 13:0.333333 14:-0.5 15:-0.230769 16:-0.884615
Первый дает результат 5,4750172361043, а второй — 0,99999999999985. Интересно, почему? Я думаю, если я посмотрю на данные выше, второй экземпляр имеет лучшую ценность, чем первый. И если я смотрю на исходный текстовый обзор данных, я думаю, что у второго экземпляра категория обзора «лучше», чем у первого. Так почему же результат не такой, как я ожидал?
Нормально ли, что приведенные выше результаты SVM дают огромное значение, даже больше, чем -1 и 1? Общий результат из всех наборов данных имеет минимальную оценку SVM -4,5085001691845 и максимальную 7,1355405169311. Я не уверен, но думаю, что результат обычно находится в диапазоне от -1 до 1. Что-то не так?
Что я должен сделать, чтобы получить результаты, которые вы все могли бы считать нормальными? Я имею в виду, что хороший экземпляр категории отзывов имеет значение от 0 до 1 или немного больше (например, 1,135645), а плохие отзывы имеют значение от 0 до -1 (или, например, -1,0573545).
просто дополнительная информация к моему вопросу:
- Я использую библиотеку решателя SVM с веб-сайта phpir.com (Ян Барбер).
- Параметр C и гамма, которые я использую, по-прежнему используются по умолчанию, и я не проводил перекрестную проверку.
- Я привожу здесь несколько примеров хороших и плохих отзывов: http://pastebin.com/cqDK7WA6
пожалуйста, помогите мне, я действительно новичок в этом, может быть, я не понял основную концепцию SVM, поэтому мне нужно ваше объяснение, и извините за мой плохой английский.