Я использую Tesseract, но я не знаю, игнорирует ли он какую-либо нетекстовую область и ориентируется только на текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?
Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?
Ответы (1)
Tesseract имеет довольно хороший алгоритм для обнаружения текста, но в конечном итоге он будет давать ложноположительные совпадения.
В идеале вы должны предварительно обработать изображение, прежде чем отправлять его в tesseract. Некоторое время назад я занимался подобной задачей, поэтому предлагаю вам ознакомиться со следующим материалом:
OpenCV C++/Obj-C : обнаружение листа бумаги/обнаружение квадрата
Выполнение cv::warpPerspective для фальшивого устранения перекоса на набор cv::Point
Повернуть cv::Mat с помощью cv::warpAffine смещает целевое изображение
Аффинное преобразование, простое вращение и масштабирование или что-то еще?
person
karlphillip
schedule
19.04.2012