Изучение различных подходов: нормализация окраски, увеличение цвета, адаптация состязательной области, адаптация модели и точная настройка

Одна из самых больших проблем в анализе гистопатологических изображений - создание моделей, устойчивых к вариациям в различных лабораториях и системах визуализации. Эти различия могут быть вызваны разными цветовыми характеристиками слайд-сканеров, сырьем, технологиями производства и протоколами окрашивания.

Различные настройки могут создавать изображения с разной интенсивностью пятен или другими изменениями, создавая сдвиг домена между исходными данными, на которых была обучена модель, и целевыми данными, с которыми должно работать развернутое решение. Когда смещение домена слишком велико, модель, обученная на одном типе данных, не сработает на другом, часто непредсказуемым образом.

Я работал с клиентом, который заинтересован в выборе лучшей модели обнаружения объектов для своего варианта использования. Но изображения, которые их модель будет изучать после развертывания, взяты из другой лаборатории и с разных сканеров.

Сдвиг предметной области от их обучающего набора данных к целевому, вероятно, будет более сложной задачей, чем получение современных результатов на обучающем наборе.

Я посоветовал им как можно скорее решить эту проблему адаптации домена. Они всегда могут поэкспериментировать с более совершенными моделями обнаружения объектов позже, когда научатся управлять сдвигом домена.

Итак, как вы справляетесь со сдвигом домена? Есть несколько разных вариантов:

  1. Стандартизируйте внешний вид ваших изображений с помощью методов нормализации пятен
  2. Увеличение цвета во время тренировки, чтобы использовать различия в окрашивании
  3. Обучение состязательности предметной области для изучения предметно-инвариантных функций
  4. Адаптируйте модель во время тестирования, чтобы справиться с новым распределением изображений
  5. Выполните точную настройку модели в целевом домене

Некоторые из этих подходов преследуют противоположные цели. Например, увеличение цвета увеличивает разнообразие изображений, а нормализация пятен пытается уменьшить вариации. Состязательное обучение предметной области пытается изучить предметно-инвариантные функции, в то время как адаптация или точная настройка модели преобразует модель, чтобы она подходила только для целевой области.

В этой статье мы рассмотрим каждую из пяти стратегий, а затем подведем итоги исследований, в которых будет показано, какие методы работают лучше всего.

1. Нормализация пятен

Различные лаборатории и сканеры могут создавать изображения с разными цветовыми профилями для конкретного пятна. Цель нормализации пятен - стандартизировать внешний вид этих пятен.

Традиционно использовались такие методы, как сопоставление цветов [Reinhard2001] и отделение пятен [Macenko2009, Khan2014, Vahadane2016]. Однако эти методы основаны на выборе одного справочного слайда. Ren et al. с тех пор показали, что одним из возможных решений является использование ансамбля с разными справочными слайдами [Ren2019].

Более серьезная проблема заключается в том, что эти методы не учитывают пространственные особенности, которые могут привести к нарушению структуры ткани.

Генеративные состязательные сети (GAN) - это новейшие достижения в области нормализации пятен. Получив изображение из домена A, генератор преобразует его в домен B. Дискриминаторная сеть пытается отличить реальные изображения из домена B от поддельных, помогая генератору улучшить.

Если доступны парные и выровненные изображения из доменов A и B, эта настройка работает хорошо. Однако обычно требуется сканирование каждого слайда на двух разных сканерах или, возможно, даже повторное сканирование и повторное сканирование каждого слайда.

Но есть более простое решение для получения парных изображений: преобразовать цветное изображение в оттенки серого (домен A) и связать его с исходным цветным изображением (домен B) [Salehi2020]. Они идеально совмещены, и условную GAN можно обучить воссозданию цветного изображения.

Одним из основных преимуществ этого подхода является то, что модель восстановления, обученная для одной конкретной области, может работать для множества различных лабораторий и сканеров, поскольку входные изображения в градациях серого отличаются меньшими вариациями, чем цветные.

Альтернативный подход, когда парные изображения недоступны, - CycleGAN [Zhu2017]. В этой настройке есть два генератора: один для преобразования из области A в B, а другой для перехода из области B в A. Цель этих двух моделей состоит в том, чтобы иметь возможность восстановить исходное изображение: A - ›B -› A или B - ›A -› B. CycleGANs также использует дискриминаторы для прогнозирования реальных и сгенерированных изображений для каждой области.

Методы нормализации пятен с использованием глубокого обучения становятся все более сложными. В качестве первого шага, чтобы увидеть, полезен ли этот тип стандартизации для вашей задачи, я предлагаю начать с простого. StainTools и HistomicsTK реализуют некоторые методы сопоставления цветов и разделения пятен.

В некоторых случаях этих более простых методов достаточно, но не во всех. На рисунке ниже показано, как разные методы работают с пятью разными наборами данных.

2. Увеличение цвета

Увеличение изображения путем применения случайных аффинных преобразований или добавления шума - один из наиболее распространенных методов регуляризации для борьбы с переобучением. Точно так же можно использовать вариации окрашивания для увеличения разнообразия внешнего вида изображения, представленного модели во время обучения.

Хотя резкие изменения цвета нереальны для гистологии, было показано, что более тонкие изменения, генерируемые путем случайных аддитивных и мультипликативных изменений каждого цветового канала, улучшают характеристики модели.

Интенсивность увеличения цвета - это дополнительный гиперпараметр, с которым следует поэкспериментировать во время обучения и проверить на тестовых наборах из разных лабораторий или сканеров.

Фарина и др. продемонстрировали методику RandAugment на гистопатологии [Faryna2021]. Этот подход параметризует увеличение как количество выбранных случайных преобразований и их величину.

Tellez et al. изучили влияние различных техник аугментации (индивидуальных и комбинированных) на обнаружение митозов и предложили H&E-специфическое преобразование [Tellez2018]. Они выполнили деконволюцию цвета (как используется в методах разделения пятен, упомянутых выше), затем применили случайные сдвиги в пространстве гематоксилина и эозина перед преобразованием обратно в RGB. Преобразование H&E было наиболее эффективным методом индивидуальной аугментации. Комбинация всех методов дополнения имела решающее значение для обобщения производительности для нового набора данных.

3. Обучение состязательности в доменах без учителя

Следующий метод адаптации предметной области - это состязательное обучение предметной области [Ganin2016]. Этот подход использует немаркированные изображения из целевого домена.

К существующей модели добавляется модуль состязательности домена. Цель этого классификатора - предсказать, принадлежит ли изображение исходному или целевому домену. Слой инверсии градиента соединяет этот модуль с существующей сетью, так что обучение оптимизирует исходную задачу и побуждает сеть изучать особенности, не зависящие от предметной области.

Во время обучения используются помеченные изображения из исходного домена и немаркированные из целевого домена. Для помеченных исходных изображений применяются как потеря исходной сети, так и потеря домена. Для немаркированных целевых изображений используется только потеря домена.

Этот модуль можно добавить к множеству моделей глубокого обучения. Для классификации он обычно подключается к слою рядом с выходом. Для сегментации он обычно применяется к узкому слою, хотя его также можно применить к нескольким слоям. Для обнаружения его можно применить к сети пирамиды признаков. Для сложных детекторов объектов, таких как митозы, которые требуют дополнительной сети классификаторов, состязательная сеть домена может применяться только на втором этапе [Aubreville2020a].

4. Адаптировать модель во время тестирования

Вместо того, чтобы учитывать сдвиги предметной области во время обучения, модель может быть изменена во время тестирования. Сдвиги доменов отражаются в изменении распределения в пространстве признаков - ковариатном сдвиге. Таким образом, для моделей, использующих слои пакетной нормализации, среднее и стандартное отклонение можно пересчитать для нового набора тестов.

Эти новые статистические данные могут быть рассчитаны по всему набору тестов и обновлены в модели перед выполнением вывода. Или их можно рассчитывать для каждого нового пакета данных. Надо и др. обнаружил, что последнего подхода, называемого пакетной нормализацией времени предсказания, было достаточно [Nado2020]. Кроме того, одного пакета из 500 изображений было достаточно для существенного повышения точности модели.

5. Тонкая настройка модели

Наконец, модель может быть точно настроена на тестовом наборе со сдвигом домена [Aubreville2020b]. Если в наборе тестов доступно достаточно размеченных примеров, этот подход, вероятно, даст лучший результат. Однако это наиболее трудоемкий и наименее обобщаемый. В будущем может потребоваться повторная настройка модели на других тестовых наборах.

Сравнение подходов

Увеличение цвета и нормализация окраски широко используются в приложениях для обработки изображений патологии, особенно для изображений H&E целого слайда. Состязательное обучение предметной области и адаптация модели во время тестирования пока менее изучены.

Нормализация пятен против увеличения цвета

Хан и др. изучали нормализацию окраски и увеличение цвета при индивидуальном и совместном применении [Хан2020]. Наилучшие результаты были получены при совместном использовании методов.

Tellez et al. протестировали различные комбинации стратегий увеличения и нормализации изображений для множества различных задач гистологической классификации [Tellez2019]. Наилучшей конфигурацией оказалось случайное смещение цветовых каналов без применения нормализации пятен. Эксперименты, использующие нормализацию окраски, выполнены лишь немного хуже. Это подтверждает важность увеличения изображения для создания надежного классификатора для гистологии и подчеркивает важность цветовых преобразований. Хотя применение нормализации пятен действительно не повредило, эти дополнительные вычисления могут не потребоваться.

Нормализация пятен и обучение соперничеству в домене

Ren et al. сравнили состязательное обучение предметной области с некоторыми подходами к нормализации пятен и увеличению цвета, демонстрируя, что состязательный подход предметной области лучше подходит для обобщения на новые наборы изображений [Ren2019].

Нормализация пятен против увеличения цвета против противостояния доменов

Larfarge et al. провели аналогичное исследование, которое также включало обучение соперничеству в предметной области. Они сравнили состязательное обучение предметной области с увеличением цвета и нормализацией окраски в задачах классификации митозов и сегментации ядер [Lafarge2019].

При классификации митозов они обнаружили, что увеличение цвета лучше всего работает для тестовых изображений из той же лаборатории, в которой обучалась модель. Тем не менее, на изображениях из других лабораторий лучше всего было обучение противостояния предметной области в сочетании с увеличением цвета.

Для сегментации ядер результаты были немного другими. Нормализация пятен была ключевой при тестировании на изображениях одного и того же типа ткани. На разных типах тканей лучше всего было тренироваться по предметной области с нормализацией окраски.

Ясно, что обучение противоборству в предметной области было выгодно для обоих типов смены предметной области!

Однако лучшая стратегия предварительной обработки и расширения варьировалась в зависимости от набора данных. Лафарж предположил, что это связано с изменчивостью предметной области в обучающей выборке.

Методы нормализации пятен, протестированные в приведенном выше анализе методов, представляют собой только традиционные методы сопоставления цветов и разделения пятен. Существует множество новых подходов, основанных на глубоком обучении, которые не были включены в эти тесты.

Рекомендации

Традиционные методы нормализации пятен стоит попробовать в качестве первого прохода, поскольку их проще реализовать и часто быстрее выполнять. Для некоторых сдвигов домена этого может быть даже достаточно, особенно в сочетании с увеличением цвета или адаптацией домена. Эксперименты с более простым методом также могут дать представление о том, улучшит ли нормализация некоторого количества пятен производительность обобщения модели. Для более надежной нормализации пятен, сохраняющей структуру ткани, оцените методы, описанные выше.

Доступные данные также могут быть решающим фактором при выборе подходящих методов. Нормализация пятен и увеличение цвета не требуют изображений целевой области во время обучения, в то время как другие три подхода требуют. Для адаптации модели требуются немаркированные целевые данные, а для точной настройки - маркированные. По этим причинам в первую очередь часто пробуют нормализацию окраски и увеличение цвета, при необходимости включающую адаптацию противоборствующего домена. Эти три метода также являются лучшими подходами для обучения единой обобщаемой модели. Если доступен большой набор целевых изображений, то наиболее эффективными будут адаптация модели (с немаркированными данными) или точная настройка (с помеченными данными).

Также очень важен мониторинг развернутой системы на предмет непредвиденных смен доменов. Stacke et al. разработали способ количественной оценки сдвига домена [Stacke2020]. Их метрика не требует аннотированных данных, поэтому может служить простым тестом, чтобы увидеть, будут ли новые данные хорошо обработаны существующей моделью.

Хотите получить максимальную отдачу от ваших изображений и алгоритмов?

Хизер Д. Кутюр - основательница Pixel Scientia Labs, которая использует новейшие исследования машинного обучения, чтобы помочь командам разработчиков бороться с раком.

Свяжитесь с ней, чтобы узнать, как реализовать лучшие модели и оказать влияние.

Ссылки

[Aubreville2020a] М. Обревиль, К.А. Бертрам, С. Джабари, К. Марцаль, Р. Клопфляйш, А. Майер, Межвидовая, межтканевая адаптация домена для оценки митотической фигуры (2020), Bildverarbeitung für die Medizin

[Aubreville2020b] M. Aubreville, C.A. Бертрам, Т. Донован, К. Марцаль, А. Майер, Р. Клопфляйш, Полностью аннотированный набор данных полного слайда о раке груди у собак в помощь исследованиям рака груди у человека (2020b), Научные данные

[Aubreville2021] М. Обревиль, К. Бертрам, М. Вета, Р. Клопфляйш, Н. Статоникос, К. Брейнингер, Н. тер Хов, Ф. Чомпи, А. Майер, Количественная оценка индуцированного сканером разрыва домена при митозе Обнаружение (2021 г.), препринт arXiv arXiv: 2103.16515

[Cho2017] Х. Чо, С. Лим, Г. Чой, Х. Мин, Обучение переносу нейронных пятен с использованием gan для гистопатологических изображений (2017), препринт arXiv arXiv: 1710.08543

[Faryna2021] К. Фарина, Дж. Ван дер Лаак, Г. Литдженс, Адаптация автоматического увеличения данных к гистопатологии, окрашенной гематоксилином и эозином (2021 г.), Медицинская визуализация с глубоким обучением

[Ganin2016] Ю. Ганин, Э. Устинова, Х. Аякан, П. Жермен, Х. Ларошель, Ф. Лавиолетт, М. Маршан, В. Лемпицкий, Доменно-состязательное обучение нейронных сетей (2016), Журнал исследований в области машинного обучения

[Khan2014] Подход нелинейного картирования к нормализации пятен на цифровых гистопатологических изображениях с использованием специфической для изображения деконволюции цвета

[Khan2020] А. Хан, М. Ацори, С. Оталора, В. Андреарчик, Х. Мюллер, Обобщение сверточных нейронных сетей на гетерогенных данных по цвету пятен для вычислительной патологии (2020), Медицинская визуализация

[Lafarge2019] M.W. Lafarge, J.P. Pluim, K.A. Эппенхоф, М. Вета, Изучение предметно-инвариантных представлений гистологических изображений (2019), Frontiers in Medicine

[Lo2021] Ю.С. Ло, И.Ф. Чунг, С. Го, М. Вэнь, К.Ф. Хуанг, Циклический перевод изображений почечной патологии на основе GAN с помощью приложения для обнаружения клубочков (2021 г.), Applied Soft Computing

[Macenko2009] M. Macenko, M. Niethammer, J.S. Маррон, Д. Борланд, Дж. Т. Woosley, X. Guan, C. Schmitt, N.E. Томас, Метод нормализации гистологических слайдов для количественного анализа (2009 г.), Международный симпозиум по биомедицинской визуализации.

[Nado2020] З. Надо, С. Пади, Д. Скалли, А. Д'Амур, Б. Лакшминараянан, Дж. Снук, Оценка нормализации пакета во время прогнозирования для устойчивости при ковариатном сдвиге (2020), препринт arXiv arXiv: 2006.10963

[Reinhard2001] Э. Рейнхард, М. Адихмин, Б. Гуч, П. Ширли, Передача цвета между изображениями (2001), Компьютерная графика и приложения

[Ren2019] J. Ren, I. Hacihaliloglu, E.A. Певец, Д.Дж. Форан, X. Qi, Неконтролируемая адаптация домена для классификации гистопатологических полных изображений слайдов (2019), Frontiers in Bioengineering and Biotechnology

[Салехи2020] П. Салехи, А. Чалешале, Трансляция пятен на основе Pix2pix: решение для надежной нормализации пятен при анализе гистопатологических изображений (2020), Международная конференция по машинному зрению и обработке изображений

[Stacke2020] К. Стаке, Г. Эйлерцен, Дж. Унгер, К. Лундстрем, Измерение сдвига домена для глубокого обучения в гистопатологии (2020), Журнал биомедицинской и медицинской информатики

[Tellez2018] Д. Теллез, М. Балкенхол, Н. Карссемейер, Г. Литдженс, Дж. Ван дер Лаак, Ф. Циомпи, Увеличение окрашивания H и E улучшает обобщение сверточных сетей для гистопатологического обнаружения митоза (2018), Медицина Изображения

[Tellez2019] Д. Теллез, Г. Литенс, П. Банди, В. Бултен, Дж. М. Бокхорст, Ф. Чомпи, Й. ван дер Лаак, Количественная оценка эффектов увеличения данных и нормализации цвета пятен в сверточных нейронных сетях для вычислительной патологии. (2019), Анализ медицинских изображений

[Vahadane2016] Сохраняющая структуру нормализация цвета и разделение разреженных пятен для гистологических изображений

[Zhu2017] J.Y. Чжу, Т. Парк, П. Изола, А.А. Эфрос, Непарный преобразование изображения в изображение с использованием согласованных по циклу состязательных сетей (2017), Труды Международной конференции по компьютерному зрению.