Я использую ImageMagick для преобразования оцифрованного файла PDF в TIFF. Я использую Tesseract для сканирования небольшой части этого документа, которая представляет собой число. Мои оцифрованные документы имеют плохое разрешение, и иногда tesseract не может прочитать правильный номер. Например, он гласит: 5550002845 для номера, который вы видите на картинке.
Это изображение было извлечено из PDF с помощью следующей команды:
convert -quality 100 -density 300 temp.pdf -depth 8 -colorspace gray +matte +contrast +contrast temp.tiff
Есть ли что-нибудь лучшее, что я могу сделать, чтобы улучшить качество изображения (обнаружения Tesseract)?
С Уважением