aws sagemaker для обнаружения текста в изображении

Я знаю, что для этого лучше использовать aws Rekognition. Однако, похоже, это не работает, когда я пробовал это с имеющимися у меня изображениями (которые похожи на небольшие контейнеры с этикетками на них). Текст выходит с ошибками и фрагментирован.

Я новичок в ML и sagemaker. Судя по тому, что я видел, варианты использования, похоже, предназначены для прогнозирования и классификации изображений. Я не смог найти ни одной по обучению модели обнаружению текста на изображении. Можно ли это сделать с помощью Sagemaker? Я был бы признателен, если бы кто-нибудь указал мне правильное направление.

amazon-web-services amazon-sagemaker

Avinash Prabhakar 04.02.2019 источник

Ответы (1)

arrow_upward
4
arrow_downward

Различные сервисы будут предоставлять разные уровни абстракции для оптического распознавания символов (OCR) в зависимости от того, с какими частями конвейера вам удобнее всего работать, а какие вы предпочитаете абстрагировать.

Вот несколько вариантов:

Rekognition предоставит готовое оптическое распознавание текста с помощью DetectText. Однако кажется, что вам нужно будет выполнить некоторую предварительную обработку ваших изображений в вашем текущем случае, чтобы получить лучшие результаты. Это можно сделать любым методом по вашему выбору (Lambda, EC2 и т. Д.).
SageMaker - это инструмент, который позволит вам легко обучать и развертывать собственные модели (любого типа). У вас есть два основных варианта использования SageMaker:
1. Самостоятельная работа: если вы хотите пойти по пути маркировки собственных данных, сбора значительного обучающего набора и обучения собственной модели OCR, это возможно путем обучения и развертывания вашей собственная модель через SageMaker.
2. Существующий алгоритм OCR: существует множество алгоритмов, каждый из которых имеет различные потенциальные компромиссы для OCR. Одним из примеров может быть Tesseract. Используя это, вы можете более тесно связать этап предварительной обработки с обнаружением текста.
Amazon Textract (в предварительной версии) - это специализированная служба распознавания текста. это может обеспечить лучшую производительность в зависимости от того, как выглядят ваши изображения и выбранных вами настроек.

Я бы лично порекомендовал изучить предварительную обработку для OCR, чтобы узнать, улучшает ли это распознавание точности, прежде чем перейти к другим параметрам. Даже если это не повысит точность Rekognition, оно все равно будет полезно для большинства других опций!

Nick Walsh 04.02.2019

comment

Привет, спасибо за ответ. API облачного видения Google, кажется, довольно хорошо дает мне текст. Я отправил еще один вопрос, на который, надеюсь, вы поможете мне ответить. Вы, кажется, хорошо это знаете. - Avinash Prabhakar; 05.02.2019

aws sagemaker для обнаружения текста в изображении

Ответы (1)

Похожие вопросы