Хеширование с учетом местоположения кажется отличным методом для KNN без каких-либо недостатков. Однако в чем недостаток хеширования с учетом местоположения, если кто-то использует его в промышленности для практических приложений? В каких ситуациях LSH потерпит неудачу или будет работать плохо? Или кодирование/настройка занимает много времени?
Ближайший сосед — недостаток хеширования с учетом местоположения
Ответы (1)
Это довольно широкий вопрос, но, поскольку вы здесь впервые, я попытаюсь ответить.
LSH не так совершенен, как вы описываете, конечно, поищите статьи об этом, пожалуйста. Может быть, этот вопрос может помочь: Как понять хеширование с учетом местоположения?
Существует множество библиотек LSH, обеспечивающих автоматическую настройку параметров, но не самая важная из них, R, используемая при решении рандомизированной версии R-ближнего соседа. Это серьезный недостаток, поскольку пользователю приходится вручную определять R при каждом вводе. Это, на мой взгляд, очень важный аспект, который вы должны учитывать, когда дело доходит до практических приложений.
Что касается производительности, все зависит от вашего вклада! Например, в моем проекте kd-GeRaF я тщательно протестировал LSH и видел, что у него могут быть некоторые важные проблемы, когда речь идет о точности и скорости поиска. Объем наборов данных находился в многомерном пространстве, где выполнялась ANNS.