Я хотел проверить, как поведет себя байесовская сеть, если я буду манипулировать только размером набора данных.
Поскольку я все еще думаю о генераторе данных (не могу найти подходящую статью), я решил просто умножить имеющиеся у меня данные. Я подумал, что если я просто продублирую его, это не изменит результаты классификации, а только время создания модели.
Ну, я провел тесты на двух наборах данных:
data1: 70 экземпляров, 8 атрибутов, да/нет классификации
data2: 768 экземпляров, 206 атрибутов, классификация типов 1-6.
Результаты по времени вычислений на исходных наборах составляют от 0 до 0,01 секунды, поэтому я не могу получить от этого многого. Интересные цифры появляются после того, как я умножил данные.
Метод тестирования представлял собой перекрестную проверку на 10-кратной проверке. Все сделано в Weka.
.
Формат:
Number_of_instances : model_creation_time : %Correctly_Clasified_instances
Data1, Наивный Байес:
768 : 0s : 76.3021%
7680 : 0.01s : 76.2891%
76800 : 0.11s : 76.2708%
768000 : 1.39s : 76.3021%
Данные1, нормальный Байес:
768 : 0.02s : 74.349%
7680 : 0.08s : 85.7943%
76800 : 1.43s : 97.8659%
768000: 26.18s : 97.824%
Data2, Наивный Байес:
70 : 0s : 82.8571%
700 : 0s : 92%
7000: 0.02s : 94.2857%
70000 : 0,21 с : 94,2857%
Data2, нормальный байес:
70 : 0.01s : 82.8571%
700 : 0.01s : 93.2857%
7000 : 0.11s : 94.2857%
70000 : 2.63s : 94.2857%
Время вычислений во всех случаях увеличилось (обычный байес занял больше времени — но в data2 с большим количеством атрибутов он растет гораздо медленнее).
Правильно классифицированные экземпляры высоко подняты только в обычном байесе в data1 (8 атрибутов).
В то время как на data2 (206 атрибутов) классификация значительно улучшилась для обоих методов.
Как дублирование данных помогло в классификации? Я что-то не так сделал или это какие-то фейковые результаты? Можно ли это объяснить?