Я пытаюсь использовать MCS (мультисистему классификаторов), чтобы лучше работать с ограниченными данными, т.е. становиться более точными.
В настоящее время я использую кластеризацию K-средних, но могу выбрать FCM (нечеткие c-средние), когда данные группируются в группы (кластеры), данные могут представлять что угодно, например, цвета. Сначала я группирую данные после предварительной обработки и нормализации и получаю несколько отдельных кластеров с большим количеством промежуточных значений. Затем я продолжаю использовать кластеры в качестве данных для байесовского классификатора, каждый кластер представляет отдельный цвет, байесовский классификатор обучается, а данные из кластеров затем проходят через отдельные байесовские классификаторы. Каждый байесовский классификатор обучается только одному цвету. Если мы возьмем цветовой спектр 3–10 как синий, 13–20 как красный, а спектр между 0–3 как белый до 1,5, затем постепенно переходим в синий через 1,5–3 и то же самое для синего к красному.
Что я хотел бы знать, так это то, как или какой метод агрегирования (если это то, что вы будете использовать) можно применить, чтобы байесовский классификатор мог стать сильнее, и как он работает? Знает ли метод агрегирования ответ, или это будет вмешательство человека, которое корректирует выходные данные, а затем эти ответы возвращаются в обучающие данные Байеса? Или комбинация того и другого? Глядя на агрегирование Bootstrap, он включает в себя то, что каждая модель в ансамбле голосует с равным весом, поэтому не совсем уверен, что в этом конкретном случае я бы использовал пакетирование в качестве метода агрегирования? Однако бустинг включает в себя постепенное создание ансамбля путем обучения каждого нового экземпляра модели, чтобы выделить учебные экземпляры, которые предыдущие модели неправильно классифицировали, не уверен, что это будет лучшей альтернативой пакетированию, поскольку я не уверен, как он постепенно строится на новых экземплярах? И последним из них будет усреднение байесовской модели, которое представляет собой метод ансамбля, который пытается аппроксимировать Оптимальный классификатор Байеса путем выборки гипотез из пространства гипотез и их объединения с использованием закона Байеса, однако совершенно не уверены, как вы будете выбирать гипотезы из пространства поиска?
Я знаю, что обычно вы бы использовали конкурентный подход для переключения между двумя алгоритмами классификации, один говорит да, другой говорит, что, возможно, можно применить взвешивание, и если оно правильное, вы получаете лучшее из обоих классификаторов, но на всякий случай я не хочу конкурентный подход.
Другой вопрос заключается в том, чтобы использовать эти два метода вместе таким образом, было бы полезно, я знаю, что приведенный мной пример очень примитивен и может не применяться в этом примере, но может ли он быть полезен для более сложных данных.