aws sagemaker для обнаружения текста в изображении

Я знаю, что для этого лучше использовать aws Rekognition. Однако, похоже, это не работает, когда я пробовал это с имеющимися у меня изображениями (которые похожи на небольшие контейнеры с этикетками на них). Текст выходит с ошибками и фрагментирован.

Я новичок в ML и sagemaker. Судя по тому, что я видел, варианты использования, похоже, предназначены для прогнозирования и классификации изображений. Я не смог найти ни одной по обучению модели обнаружению текста на изображении. Можно ли это сделать с помощью Sagemaker? Я был бы признателен, если бы кто-нибудь указал мне правильное направление.


person Avinash Prabhakar    schedule 04.02.2019    source источник


Ответы (1)


Различные сервисы будут предоставлять разные уровни абстракции для оптического распознавания символов (OCR) в зависимости от того, с какими частями конвейера вам удобнее всего работать, а какие вы предпочитаете абстрагировать.

Вот несколько вариантов:

  • Rekognition предоставит готовое оптическое распознавание текста с помощью DetectText. Однако кажется, что вам нужно будет выполнить некоторую предварительную обработку ваших изображений в вашем текущем случае, чтобы получить лучшие результаты. Это можно сделать любым методом по вашему выбору (Lambda, EC2 и т. Д.).

  • SageMaker - это инструмент, который позволит вам легко обучать и развертывать собственные модели (любого типа). У вас есть два основных варианта использования SageMaker:

    1. Самостоятельная работа: если вы хотите пойти по пути маркировки собственных данных, сбора значительного обучающего набора и обучения собственной модели OCR, это возможно путем обучения и развертывания вашей собственная модель через SageMaker.

    2. Существующий алгоритм OCR: существует множество алгоритмов, каждый из которых имеет различные потенциальные компромиссы для OCR. Одним из примеров может быть Tesseract. Используя это, вы можете более тесно связать этап предварительной обработки с обнаружением текста.

  • Amazon Textract (в предварительной версии) - это специализированная служба распознавания текста. это может обеспечить лучшую производительность в зависимости от того, как выглядят ваши изображения и выбранных вами настроек.

Я бы лично порекомендовал изучить предварительную обработку для OCR, чтобы узнать, улучшает ли это распознавание точности, прежде чем перейти к другим параметрам. Даже если это не повысит точность Rekognition, оно все равно будет полезно для большинства других опций!

person Nick Walsh    schedule 04.02.2019
comment
Привет, спасибо за ответ. API облачного видения Google, кажется, довольно хорошо дает мне текст. Я отправил еще один вопрос, на который, надеюсь, вы поможете мне ответить. Вы, кажется, хорошо это знаете. - person Avinash Prabhakar; 05.02.2019