Мэтт МакГраттан, руководитель отдела решений для цифровых библиотек Digirati.

Центр исследований британского искусства Пола Меллона оцифровал 250 томов Каталога выставок для летней выставки Королевской академии с 1769 по 2018 год и заказал подробные научные статьи для каждого года выставки, приуроченной к 250-летию Летняя выставка. Digirati были заказаны Центром Пола Меллона для создания онлайн-версии проекта.

Получившийся веб-сайт можно найти по адресу: https://chronicle250.com.

Digirati попросили разработать веб-сайт по дизайну Стрик и Уильямс и предоставить вспомогательную инфраструктуру для сайта с помощью облачной службы цифровой библиотеки (DLCS).

Требования:

  • Каждый каталог должен быть доступен в Интернете с использованием API изображений и презентаций IIIF. См. Подробности на https://iiif.io.
  • В каждом каталоге должен быть полный текст с возможностью поиска.
  • Экспоненты должны быть идентифицированы в тексте каталога и через горячие ссылки на изображениях должны быть связаны с поисковым индексом на главном сайте Хроника 250.
  • Записи в указателе для данного Экспонента должны содержать ссылки на все упоминания этого художника в корпусе каталогов Выставки.
  • Страницы на каждый год с богатыми научными статьями.
  • Индексные записи для авторов и произведений искусства.
  • Тематические указатели избранных статей за год.

При создании сайта Digirati:

  • Предоставляются эффективные версии оцифрованных каталогов и иллюстраций с функцией глубокого масштабирования и поддержкой открытых API (https://iiif.io) с использованием DLCS.
  • Создал OCR для этих изображений, в том числе каталоги 18 века с историческими шрифтами.
  • Выявленные экспоненты в тексте каталога и связанные экспоненты с областями изображений для создания горячих ссылок между каталогом и указателем.
  • Обеспечивает удобный поиск как в отдельном каталоге, так и по каталогам.
  • Создан удобный указатель участников.
  • Собрал контент - каталоги, указатели, научные статьи - в соответствии с брифом по дизайну Стрик и Уильямс, чтобы создать сайт Chronicle250.

Решение

Более подробную техническую версию этой информации можно найти здесь.

DLCS

Если бы мы начали с нуля, без существующей инфраструктуры и кодовой базы, проект Chronicle250 потенциально мог бы оказаться очень дорогостоящим как по времени, так и по бюджету.

Тем не менее, Digirati предоставляет размещенную облачную услугу DLCS, предназначенную для работы в качестве многопользовательской службы, совместно используемой пользователями, которые могут быть не в состоянии или могут не захотеть запускать свою собственную инфраструктуру хостинга изображений. DLCS использует API IIIF и основан на открытых стандартах, поэтому новые проекты могут быть легко построены поверх DLCS. DLCS также может быть дополнительно дополнен дополнительными услугами, которые могут обогащать контент тегами, транскрипциями и поиском.

Использование DLCS было ключевым требованием для этого проекта, так как наличие DLCS сделало многие из основных функций, необходимых для сайта, выполнимыми без большого объема инфраструктурных работ или базовой разработки программного обеспечения. Время разработки и, следовательно, бюджет этого проекта можно было бы сосредоточить на разработке внешнего интерфейса и усовершенствованиях существующих сервисов DLCS, связанных с аннотациями и обработкой естественного языка, а не на базовом хостинге изображений или функциональных возможностях обработки и индексации текста.

DLCS предоставляет услуги, которые:

  • Перекодируйте изображения в jpeg2000. (Многоквартирные дома)
  • Создавайте статические эскизы с несколькими разрешениями. (Многоквартирные дома)
  • (Масштабируемый) сервис IIIF Image API. (Многоквартирные дома)
  • Базовые API презентации IIIF для создания, чтения, обновления и удаления коллекций, последовательностей, манифестов и холстов IIIF. (В зависимости от проекта)
  • создать текст OCR из источника IIIF Image API. (В зависимости от проекта)
  • приведите OCR к стандартному общему формату (чтобы гарантировать, что DLCS не зависит от движка OCR). (В зависимости от проекта)
  • предоставлять текст OCR как аннотации Открытая аннотация (для отображения в клиентах IIIF Presentation API 2.x, которые не поддерживают Модель данных веб-аннотаций W3C). (В зависимости от проекта)
  • выполнять распознавание именованных сущностей из контролируемых словарей или из стандартных моделей нейронных сетей. (В зависимости от проекта)
  • хранить веб-аннотации W3C и OA на сервере аннотаций. (В зависимости от проекта)
  • индексировать аннотации W3C и OA вместе с текстом OCR и предоставлять услуги API поиска содержимого IIIF. (В зависимости от проекта)

Для Chronicle250 мы смогли использовать общие мультитенантные сервисы как есть, а затем настроить специальные сервисы для проекта Chronicle250, чтобы обеспечить улучшения, необходимые для идентификации, связывания и индексации экспонентов в оцифрованных версиях выставочных каталогов.

Услуги OCR

Каталоги для Chronicle250 охватывают 250-летие выставок Королевской академии, что предъявляет особые требования к качеству распознавания текста, поскольку используемые исторические шрифты, как правило, плохо распознаются стандартными средствами распознавания текста с открытым исходным кодом, такими как Тессеракт или Окропи . Кроме того, сегментация изображений на блоки, абзацы и строки также затруднена, потому что текст часто довольно сильно перекошен из-за проступания со страниц оборотной стороны, а неравномерный кернинг приводит к появлению ошибочных пробелов по всему тексту.

Мы оценили ряд механизмов OCR, в том числе:

DLCS уже имел интеграцию для Google Vision и Tesseract, и мы обнаружили, что Google Vision показал хорошие результаты по сравнению с другими облачными сервисами от Microsoft и Abby, а также значительно выше, чем Tesseract. На протяжении 250 лет существования каталогов используется ряд шрифтов, поэтому специальное обучение Tesseract с глифами из определенных лет каталога не могло бы хорошо распространяться на весь проект и привело бы к значительным дополнительным затратам времени персонала для достижения результатов, которые не будет превышать облачных сервисов, которые можно использовать немедленно.

Мы смогли использовать существующие службы OCR DLCS как есть для извлечения текста и нормализации текста OCR без значительной настройки для этого проекта.

Обработка естественного языка и распознавание именованных сущностей

В DLCS есть служба распознавания именованных сущностей, которая использует IIIF, Spacy.io и Веб-аннотации W3C для маркировки областей изображений людьми, местами, датами, организациями и другими классами сущностей.

Мы оценили использование этой службы с использованием готовых моделей нейронных сетей, не обученных в корпусе Королевской академии, и обнаружили, что общее качество созданных тегов было неприемлемым с точки зрения количества правильно идентифицированных художников и с точки зрения от числа ложно идентифицированных нехудожников.

Типичная страница каталога может содержать записи следующего вида:

А также другие страницы в том же томе, которые выглядят так:

Нам нужно было идентифицировать имена художников на каждой странице, а также определить, когда разные вхождения имени в каталоге были отсылками к одному и тому же художнику. Обратите внимание на разные формы, в которых может фигурировать имя исполнителя.

Для улучшения результатов мы:

  • Написал код, анализирующий известные источники данных об артистах, из: Список имен артистов Союза Гетти (ULAN); Списки академиков Королевской академии, предоставленные Центром Пола Меллона; Списки участников (полные до 1990 г.) также предоставлены Центром Пола Меллона.
  • Сгенерированы варианты форм этих имен художников, чтобы система правильно определила, что J. Northcote, R.A. и Northcote, James, R.A. были одним и тем же человеком, и определила, что этот James Northcote был художником, который жил с 1746-1831 гг.
  • Написал код для обработки (путем нормализации и / или игнорирования пробелов) проблем кернинга и сегментации с историческим текстом.
  • Написал код для фильтрации произведений искусства по дате, чтобы гарантировать, что только соответствующие художники для данного года каталога были в «пуле» для тегирования.
  • Использовал алгоритм Aho-Corasick для быстрого сопоставления текста OCR с известным списком имен исполнителей.

Этот код был реализован как расширенная версия существующей службы Digital Library Cloud Service (DLCS), поэтому нам не пришлось писать полностью новый программный стек с нуля, и мы смогли воспользоваться преимуществами существующей интеграции с OCR. сервисы и серверы аннотаций (для хранения вывода в виде аннотаций к контенту IIIF).

Компоненты просмотра IIIF: панель холста и средство просмотра «PMC»

Чтобы предоставить результаты процесса тегирования вместе с изображениями IIIF Image API, Digirati построила специальную программу просмотра IIIF Presentation API для сайта Chronicle250.

До проекта Chronicle250 компания Digirati создала облегченный компонент просмотра холста IIIF Presentation API, который поддерживает отображение аннотаций под названием CanvasPanel и который использовался в проектах для Музея Виктории и Альберта, таких как их Экспозиция Оушен Лайнер.

Для проекта Chronicle250 мы взяли CanvasPanel и добавили дополнительную поддержку:

Средство просмотра PMC можно найти на Github по адресу: https://github.com/digirati-co-uk/pmc-viewer

Поиск и индексирование

Полная DLCS (облачная служба цифровой библиотеки) предоставляет Службу поиска содержимого IIIF Mathmos, которая интегрируется с шиной сообщений DLCS и индексирует как полный текст (предоставляемый OCR), так и аннотации (предоставляемые тегами, сгенерированными машиной. ).

Однако для проекта Chronicle250 видение не заключалось в том, чтобы полагаться на DLCS для непрерывной доставки текстового контента или услуг зрителю. Текстовый конвейер DLCS можно было закрыть после обработки, оставив только веб-сайт / приложение Chronicle250 и сервисы DLCS, IIIF Image API и IIIF Presentation API, работающие как активные сервисы. Кроме того, услуга Поиск содержимого IIIF на DLCS предоставляет базовые / общие поисковые услуги, которые не удовлетворяют в полной мере требованиям сайта Chronicle250.

Вместо этого для Chronicle250 мы создали специальный индекс на основе Elasticsearch, который содержал:

И который предоставил как Поиск содержимого IIIF для PMC Viewer, так и общие поисковые услуги и индексацию на главном сайте Chronicle250.

Общие результаты

Машинная идентификация экспонентов по всему корпусу была чрезвычайно успешной, учитывая относительно короткое время, потраченное на индивидуальную разработку программного обеспечения и НИОКР.

Нам удалось идентифицировать 318 690 экспонентов по каталогам. Верхняя граница для возможного максимального количества экспонентов, предполагая, что каждый экспонент выставляется только один раз в каждом каталоге, будет 513 068, однако, учитывая, что обычно экспоненты выставляются более одного раза в любой год, мы можем предположить, что фактическое общее количество определенно ниже. Для каталогов после 1990 г. было очень мало тегов, потому что у нас не было данных об участниках за эти годы.

Использование методов, описанных в этой статье, дало очень хорошую окупаемость затраченного времени по сравнению со временем, которое потребовалось бы, чтобы вручную пометить 400 000–500 000 имен в корпусе. Сочетание этих методов с услугами, предоставляемыми DLCS, сделало проект с большим объемом ресурсов и данных чем-то, что можно было сделать в относительно короткие сроки.

Чтобы измерить результат, Центр Пола Меллона произвел статистику в Google Data Studio, чтобы показать точность и распределение по всему корпусу. Щелкните здесь, чтобы просмотреть данные.

Кредиты

Дигирати

Адам Месарос, старший фронт-консультант. Разработчик полного стека. Chronicle250.com; Индексы сайтов и службы поиска контента IIIF; PMC Viewer; Интеграция.

Стивен Фрейзер, технический руководитель переднего плана. AnnotationStudio; CanvasPanel; Программа просмотра PMC.

Мэтт МакГраттан, руководитель службы цифровых библиотек. Текстовый конвейер DLCS; Обработка естественного языка и теги; Владелец продукта Digirati.

Адам Кристи, старший инженер. Инфраструктура DLCS; DevOps;

Вилле Вартиайнен, старший консультант по UX. Пользовательский опыт Digirati.

Ян Фаркуар, руководитель отдела реализации проектов. Управление проектом.

Центр Пола Меллона

Том Скатт, владелец продукта PMC и цифровой редактор.

Марк Халлетт, Сара Виктория Тернер, Джессика Фезер, научные редакторы.

Бэйли Кард, издательский редактор.

Мейсун Рехани, редактор изображений.

Том Пауэлл, Шон Кеттерингем и Джеймс Финч, исследователи.

Тереза ​​Саба, редактор.

Ян Уорролл, индексатор.

Стрик и Уильямс

Шарлотта Стрик, Дизайн.

Клэр Уильямс Мартинес, Дизайн.

Пользовательский опыт

Http://www.unaffiliatedworks.com/