Я реализую классификатор изображений Bag-of-Words с помощью OpenCV. Сначала я тестировал дескрипторы SURF, извлеченные в ключевых точках SURF. Я слышал, что дескрипторы Dense SIFT (или PHOW) лучше подходят для моих целей, поэтому я тоже попробовал их.
К моему удивлению, они выступили значительно хуже, фактически почти в 10 раз хуже. Что я делаю не так? Я использую DenseFeatureDetector из OpenCV для получения ключевых точек. Я извлекаю около 5000 дескрипторов на изображение из 9 слоев и группирую их в 500 кластеров.
Стоит ли мне попробовать дескрипторы PHOW из библиотеки VLFeat? Также я не могу использовать ядро хи-квадрат в реализации SVM OpenCV, что рекомендуется во многих документах. Это важно для качества классификатора, стоит ли попробовать другую библиотеку?
Другой вопрос - масштабная инвариантность, подозреваю, что на нее может повлиять плотное извлечение признаков. Я прав?