Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?

Я использую Tesseract, но я не знаю, игнорирует ли он какую-либо нетекстовую область и ориентируется только на текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?

chostDevil 17.04.2012 источник

Ответы (1)

arrow_upward
2
arrow_downward

Tesseract имеет довольно хороший алгоритм для обнаружения текста, но в конечном итоге он будет давать ложноположительные совпадения.

В идеале вы должны предварительно обработать изображение, прежде чем отправлять его в tesseract. Некоторое время назад я занимался подобной задачей, поэтому предлагаю вам ознакомиться со следующим материалом:

karlphillip 19.04.2012

Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?

Ответы (1)

Похожие вопросы