Я читал документы OCR, такие как этот https://arxiv.org/pdf/1704.08628.pdf , и мне трудно понять, как на самом деле генерируются эти наборы данных.
В связанной статье они используют регрессор для прогнозирования начального местоположения (точки) и высоты строки текста. Затем, основываясь на этой начальной точке и высоте, вторая сеть выполняет распознавание символов и определение конца строки. Я понимаю, что это очень упрощенное объяснение, но из этого следует, что их набор данных состоит (по крайней мере, частично) из полных текстовых «изображений» страницы, аннотированных с того, где начинается каждая строка, а затем транскрипция текста в данной строке. В качестве альтернативы они могли бы просто использовать нижнюю левую точку ограничивающих рамок в качестве начальной точки и высоту рамки в качестве высоты слова (избегая необходимости повторной аннотации, если данные были ранее подготовлены с использованием ограничивающих рамок).
Так как же на самом деле создается такой набор данных? Глядя на другие наборы данных, кажется, что есть какое-то программное обеспечение, которое может создавать файлы XML, содержащие основные истины, относящиеся к каждому изображению, может ли кто-нибудь указать мне правильное направление? Я погуглил и нашел множество инструментов для аннотирования текста с настроениями и т. д., а также другие инструменты для аннотирования изображений для сегментации (для чего-то вроде сети YOLO), но я не могу создать что-то вроде используемого набора данных Maurdoor. в связанной статье.
Спасибо