Какие функции я могу использовать для рукописного оптического распознавания символов, кроме двоичной сетки изображения с пониженной дискретизацией?

Привет, я искал исследовательские работы о том, какие функции мне было бы полезно использовать в моей рукописной OCR-классифицирующей нейронной сети. Я новичок, поэтому я просто взял изображение рукописного символа, сделал вокруг него ограничивающую рамку, а затем изменил его размер в двоичное изображение 15x20. Это означает, что у меня есть входной слой из 300 функций. Из документов, которые я нашел в Google (большинство из которых довольно старые), методы действительно различаются. Моя точность неплоха, если использовать только бинарную сетку изображения, но мне было интересно, есть ли у кого-нибудь другие функции, которые я мог бы использовать для повышения моей точности. Или даже просто указать мне правильное направление. Я был бы очень признателен!

Спасибо, Зак

Zach 15.10.2012 источник

Ответы (1)

arrow_upward
1
arrow_downward

Я не читал никаких статей на эту тему, но я бы посоветовал проявить творческий подход. Используйте все, что вы можете придумать, что может помочь классификатору идентифицировать числа.

Моей первой мыслью было попытаться определить «линии» на изображении, возможно, с помощью модифицированного алгоритма «скользящего окна» (скользящая/вращающаяся линия?), или попытаться определить «линию наилучшего соответствия» изображению (чтобы помочь классификатору реагировать на изменения курсива или стиля письма). На самом деле, если вы используете нейронную сеть, она должна улавливать такие вещи без вашей ручной помощи (в этом весь их смысл!)

Я бы сначала сосредоточился на структуре и топологии вашей сети, чтобы попытаться улучшить производительность, и беспокоиться о дополнительных функциях, только если вы не можете получить удовлетворительную производительность каким-либо другим способом. Также вы можете попробовать улучшить функции, которые у вас уже есть, убедиться, что персонаж расположен по центру изображения, может быть, попробовать алгоритм, который искажает выделенные курсивом символы, чтобы сделать их вертикальными?

По моему опыту, такие вещи не часто помогают, но вам может повезти и вы наткнетесь на то, что улучшит вашу сеть :)

Jonathon Ashworth 15.10.2012

Какие функции я могу использовать для рукописного оптического распознавания символов, кроме двоичной сетки изображения с пониженной дискретизацией?

Ответы (1)

Похожие вопросы