Я нашел это решение на SO для обнаружения n-граммов в строке: (здесь: N- образование грамма из предложения)
import java.util.*;
public class Test {
public static List<String> ngrams(int n, String str) {
List<String> ngrams = new ArrayList<String>();
String[] words = str.split(" ");
for (int i = 0; i < words.length - n + 1; i++)
ngrams.add(concat(words, i, i+n));
return ngrams;
}
public static String concat(String[] words, int start, int end) {
StringBuilder sb = new StringBuilder();
for (int i = start; i < end; i++)
sb.append((i > start ? " " : "") + words[i]);
return sb.toString();
}
public static void main(String[] args) {
for (int n = 1; n <= 3; n++) {
for (String ngram : ngrams(n, "This is my car."))
System.out.println(ngram);
System.out.println();
}
}
}
=> этот фрагмент кода занимает намного больше времени обработки (28 секунд для обнаружения 1-граммов, 2-граммов, 3-граммов и 4 граммов для моего корпуса: 4 МБ необработанного текста) по сравнению с миллисекундами для других операций (удаление стоп-слов и т. д.)
Кто-нибудь знает решения на Java, которые будут работать быстрее, чем решение с циклами, представленное выше? (Я думал о многопоточности, использовании коллекций или, может быть, о творческих способах разделения строки ...?) Спасибо!