Как индексировать с помощью ELKI - Кластеризация ОПТИКА

Я новичок в ELKI, и я использовал его для кластеризации около 10 000 точек широты и долготы из файла .csv. Как только я получу правильные настройки, я хотел бы увеличить до 1 млн баллов.

Я использую алгоритм OPTICSXi с LngLatDistanceFunction.

Я продолжаю читать о «включении индекса R*-дерева с массовой загрузкой STR», чтобы увидеть значительные улучшения в производительности. Учебники мне особо не помогли.

Любые советы о том, как я могу реализовать эту функцию?


person Josh    schedule 23.09.2015    source источник
comment
Используйте параметр -db.index, чтобы добавить индекс. используйте опцию массовой загрузки, чтобы настроить массовую загрузку.   -  person Has QUIT--Anony-Mousse    schedule 24.09.2015


Ответы (1)


Предлагаемые параметры для использования пространственного индекса R* для двумерных данных:

-db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory
-pagefile.pagesize 512
-spatial.bulkstrategy SortTileRecursiveBulkSplit

Для данных большего размера необходимы страницы большего размера. Размер страницы 512-1024 байт кажется оптимальным для двумерных данных, но он также зависит от ваших данных.

Для дискретизации кластеров можно использовать извлечение Xi:

-algorithm clustering.optics.OPTICSXi -opticsxi.xi 0.005

Чтобы воспользоваться преимуществами индексного ускорения с помощью OPTICS, выберите для своего приложения эпсилон как можно меньшего размера. Параметр указывается в метрах для всех моделей Земли в ELKI.

-opticsxi.algorithm OPTICSHeap
-algorithm.distancefunction geo.LatLngDistanceFunction
-optics.epsilon 2000.0 -optics.minpts 10

использует максимальное расстояние 2 км.

Обязательно различайте latitude,longitude и longitude,latitude. Используются оба порядка, и вам нужно использовать правильную функцию расстояния:

geo.LatLngDistanceFunction
geo.LngLatDistanceFunction
person Erich Schubert    schedule 24.09.2015
comment
Спасибо! Для тех, кто следит, вот что я выполняю, и это, кажется, работает довольно хорошо с моим конкретным набором данных: java -jar ‹path› cli -algorithm clustering.optics.OPTICSXi -dbc.in ‹path› -db.index tree.spatial.rstarvariants.rstar.RStarTreeFactory -pagefile.pagesize 1024 -spatial.bulkstrategy SortTileRecursiveBulkSplit -opticsxi.xi 0.006 -optics.minpts 5 -algorithm.distancefunction geo.LngLatDistanceFunction -geo.model WGS84SpheroidEarthModel -opticsxi.algorithm OPTICSHeap вне ‹пути› - person Josh; 24.09.2015