Создание набора данных для распознавания текста на всю страницу

Я читал документы OCR, такие как этот https://arxiv.org/pdf/1704.08628.pdf , и мне трудно понять, как на самом деле генерируются эти наборы данных.

В связанной статье они используют регрессор для прогнозирования начального местоположения (точки) и высоты строки текста. Затем, основываясь на этой начальной точке и высоте, вторая сеть выполняет распознавание символов и определение конца строки. Я понимаю, что это очень упрощенное объяснение, но из этого следует, что их набор данных состоит (по крайней мере, частично) из полных текстовых «изображений» страницы, аннотированных с того, где начинается каждая строка, а затем транскрипция текста в данной строке. В качестве альтернативы они могли бы просто использовать нижнюю левую точку ограничивающих рамок в качестве начальной точки и высоту рамки в качестве высоты слова (избегая необходимости повторной аннотации, если данные были ранее подготовлены с использованием ограничивающих рамок).

Так как же на самом деле создается такой набор данных? Глядя на другие наборы данных, кажется, что есть какое-то программное обеспечение, которое может создавать файлы XML, содержащие основные истины, относящиеся к каждому изображению, может ли кто-нибудь указать мне правильное направление? Я погуглил и нашел множество инструментов для аннотирования текста с настроениями и т. д., а также другие инструменты для аннотирования изображений для сегментации (для чего-то вроде сети YOLO), но я не могу создать что-то вроде используемого набора данных Maurdoor. в связанной статье.

Спасибо


person Kelley Brady    schedule 21.05.2018    source источник


Ответы (1)


Итак, после отправки этого сообщения окно связанных тем показало мне много тем, которые я не нашел в Google. Это http://www.prima.cse.salford.ac.uk/tools программное обеспечение, кажется, то, что я искал, но я все равно хотел бы услышать другие идеи.

person Kelley Brady    schedule 21.05.2018