Кластеризовать тысячи текстовых документов в java

Есть ли эффективный способ кластеризации текстовых документов? Я думал о K-Means, но, похоже, это отнимает слишком много времени. Может ли кто-нибудь предоставить мне эффективный метод?


person KNsiva    schedule 24.12.2010    source источник


Ответы (2)


Если K-Means действительно выполняет свою работу и просто кажется медленным, то почему бы не попытаться сделать это быстрее? Я использую метод случайную паузу .

Обычно бывает так, что есть много места для ускорения, в коде, который вы бы не подумали, что это проблема, без изменения основного алгоритма. Вот пример.

person Mike Dunlavey    schedule 24.12.2010

алгоритм кластеризации зависит от вашего набора данных, хотите ли вы написать алгоритм на java? группировать документы? , вы можете использовать weka вместо того, чтобы изобретать велосипед и попробовать другую кластеризацию алгоритм на вашем наборе данных.

person Radi    schedule 24.12.2010