Я пытаюсь использовать инструмент командной строки Linux «Попплер» для извлечения информации из файлов PDF. Я хочу сделать это для огромного количества PDF-файлов на нескольких рабочих Spark. Мне нужно использовать Popplers, а не PyPDF или что-то подобное.
Кто-нибудь знает, как установить Попплер на рабочие? Я знаю, что могу выполнять вызовы командной строки из python и извлекать вывод (или извлекать сгенерированный файл с помощью библиотеки Poppler), но как мне установить его на каждом воркере? Я использую искру 1.3.1 (кирпичи данных).
Благодарю вас!