Нормальный и наивный Байес — дублирование данных, улучшение классификации [Weka]

Я хотел проверить, как поведет себя байесовская сеть, если я буду манипулировать только размером набора данных.

Поскольку я все еще думаю о генераторе данных (не могу найти подходящую статью), я решил просто умножить имеющиеся у меня данные. Я подумал, что если я просто продублирую его, это не изменит результаты классификации, а только время создания модели.

Ну, я провел тесты на двух наборах данных:

data1: 70 экземпляров, 8 атрибутов, да/нет классификации

data2: 768 экземпляров, 206 атрибутов, классификация типов 1-6.

Результаты по времени вычислений на исходных наборах составляют от 0 до 0,01 секунды, поэтому я не могу получить от этого многого. Интересные цифры появляются после того, как я умножил данные.

Метод тестирования представлял собой перекрестную проверку на 10-кратной проверке. Все сделано в Weka.

.

Формат:

Number_of_instances : model_creation_time : %Correctly_Clasified_instances


Data1, Наивный Байес:

768 : 0s : 76.3021%

7680 : 0.01s : 76.2891%

76800 : 0.11s : 76.2708%

768000 : 1.39s : 76.3021%


Данные1, нормальный Байес:

768 : 0.02s : 74.349%

7680 : 0.08s : 85.7943%

76800 : 1.43s : 97.8659%

768000: 26.18s : 97.824%


Data2, Наивный Байес:

70 : 0s : 82.8571%

700 : 0s : 92%

7000: 0.02s : 94.2857%

70000 : 0,21 с : 94,2857%


Data2, нормальный байес:

70 : 0.01s : 82.8571%

700 : 0.01s : 93.2857%

7000 : 0.11s : 94.2857%

70000 : 2.63s : 94.2857%


Время вычислений во всех случаях увеличилось (обычный байес занял больше времени — но в data2 с большим количеством атрибутов он растет гораздо медленнее).

Правильно классифицированные экземпляры высоко подняты только в обычном байесе в data1 (8 атрибутов).

В то время как на data2 (206 атрибутов) классификация значительно улучшилась для обоих методов.

Как дублирование данных помогло в классификации? Я что-то не так сделал или это какие-то фейковые результаты? Можно ли это объяснить?


person Piodo    schedule 02.12.2018    source источник


Ответы (1)


конечно, точность увеличивается, если образцы дублируются. подумай об этом. у вас больше одних и тех же данных, поэтому классификатор тренируется на них усерднее

если вы хотите протестировать разное количество образцов, вы должны удалить образцы, а не добавлять их

надеюсь я помог

Добрый день

person Mustafa Naborni    schedule 03.12.2018
comment
Спасибо. Как насчет повышения эффективности наивного и нормального байеса в данных 2, в то время как наивность в стагнации данных 1? - person Piodo; 04.12.2018