Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?

Я использую Tesseract, но я не знаю, игнорирует ли он какую-либо нетекстовую область и ориентируется только на текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?


person chostDevil    schedule 17.04.2012    source источник


Ответы (1)


Tesseract имеет довольно хороший алгоритм для обнаружения текста, но в конечном итоге он будет давать ложноположительные совпадения.

В идеале вы должны предварительно обработать изображение, прежде чем отправлять его в tesseract. Некоторое время назад я занимался подобной задачей, поэтому предлагаю вам ознакомиться со следующим материалом:

person karlphillip    schedule 19.04.2012