Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы).
Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив, содержащий ngrams, для поиска в памяти. Этот массив использует 3 ГБ памяти, и его загрузка занимает около 20 секунд каждый раз, когда я запускаю процесс. Я генерирую его один раз локально на машине, и каждый процесс загружает его из файла .json. Затем каждый процесс токенизирует текст, который он обрабатывает, и выполняет array_intersect между этими двумя массивами для извлечения сущностей.
Есть ли способ предварительно загрузить это в память на машине, на которой выполняются все эти процессы, а затем разделить ресурс между всеми процессами?
Поскольку это, вероятно, невозможно с PHP: какой тип языков/методов я должен исследовать, чтобы сделать такое извлечение сущностей более эффективным?