Не удается распознать отсканированную страницу в формате PDF с греческими словами с помощью PB, EZTWAIN и TOCR 3.0

Я использую PB 10.5.2 и EZTwain 3.30.0.28, XDefs 1.36b1 от Dosadi для сканирования.

Также я использую TOCR 3.0 для управления OCR.

В функции мы используем следующее среди всех остальных:

...

Long ll_acquire

(as_path_filename is a function argument)

...

...

TWAIN_SetAutoOCR(1)

ll_acquire = TWAIN_AcquireMultipageFile(0, as_path_filename) 

проблема в том, что на отсканированной странице pdf есть латинские (английские) и греческие слова. Английские символы ищутся достаточно точно, а греческие - нет.

Как вы думаете, это связано с программным обеспечением TOCR? Я просто хочу искать И по греческим словам

заранее спасибо


person sgian76    schedule 08.04.2010    source источник


Ответы (2)


Программное обеспечение OCR должно быть там, где оно не может преобразовать греческие слова в текст OCR. Похоже, вы используете EZTwain для части OCR, которая использует TOCR для своего фактического механизма OCR. Вы можете просмотреть документы для этого программного обеспечения и посмотреть, упоминаются ли в них какие-либо настройки, которые можно изменить для многоязычного использования.

person Doug Porter    schedule 22.04.2010

Согласно веб-сайту TOCR распознает английский, французский, итальянский, немецкий, голландский, шведский, финский, норвежский, датский, испанский и португальский языки. Вам понадобится программное обеспечение, которое может обрабатывать смешанный текст на греческом и английском языках. ABBYY FineReader Professional поддерживает английский и греческий языки, а также десятки других языков.

person Hugh Brackett    schedule 26.04.2010
comment
Кстати, существует онлайн-API с оплатой за страницу, работающий на движке ABBYY, с многоязычной поддержкой: wisetrend.com/wisetrend_ocr_cloud.shtml - person Eugene Osovetsky; 23.06.2010