
Чтобы получить более подробную техническую информацию по теме, ознакомьтесь с нашей публикацией здесь: https://openreview.net/pdf?id=8PI7W3bCTl
Непрерывный сбор данных о пациентах посредством исследований и клинической практики в области здравоохранения и разработки лекарств может значительно улучшить наше понимание болезней и методов лечения. Однако данные пациентов имеют множество ограничений, которые могут ограничивать реализацию этого потенциала:
· Законы о согласии и конфиденциальности данных ограничивают цели, для которых данные могут использоваться или даже просто перемещаться или обрабатываться.
· Сбор данных осуществляется по-разному в разных источниках данных. Например, изображения могут иметь разное разрешение или качество в зависимости от измерений, или у пациентов может быть разное расписание посещений.
· Доступность различных модальностей данных, таких как определенные измерения или медицинские изображения, может варьироваться в зависимости от пациентов и наборов данных.
В этой статье мы кратко рассмотрим основы генеративно-состязательных сетей, а затем рассмотрим некоторые достижения, достигнутые нами в создании мультимодальных синтезаторов, которые могут помочь нам решить некоторые из проблем, описанных выше.
Когда я начал работать над синтезом медицинских данных в 2021 году, варианты точного направления исследований были огромными. В этой теме очень много аспектов, и расставить приоритеты стало довольно сложно. Итак, пока я хотел бы сделать шаг назад и задать вопрос «почему?».
Представьте, что вы только что прочитали потрясающую статью и теперь хотите начать сотрудничество с исследовательской группой или лицом, ответственным за результаты. К сожалению, данные, с которыми вы работаете, классифицируются как личная информация о здоровье, поэтому совместная работа невозможна еще до ее начала, поскольку данные не могут быть легко переданы.
Или, возможно, вы разработали модель машинного обучения, которую хотите использовать, чтобы получить представление о сложном наборе данных, над которым вы работаете. К сожалению, этот набор данных страдает от разреженности в отношении некоторых характеристик, таких как демография или ранее существовавшие условия. Это приводит к тому, что модель обучается не так хорошо, как вы надеялись, а уровень полученных вами знаний не так высок, как вы ожидали.
Возможно, вы сделали прорывное открытие и пора его опубликовать. Опять же, к сожалению, чтобы защитить конфиденциальность пациентов, вы можете публиковать только часть своих результатов, уменьшая поток информации в более широкое исследовательское сообщество.
Наконец, в другом сценарии вы возглавляете команду специалистов по клиническим данным и наняли младших специалистов по данным на основе технического собеседования, основанного на общедоступном наборе данных, который не полностью отражает сложность клинических данных, обычно используемых в вашей работе. работа. При столкновении с реальными проблемами с данными может стать очевидным, что их навыки на самом деле не соответствуют задачам и имеющимся данным, и, возможно, другие кандидаты подошли бы лучше.
Все эти сценарии могли бы дать лучшие результаты при использовании синтетических данных.
Что такое синтетические данные в контексте медицинских приложений?

Обучая модель, способную создавать правдоподобные точки данных, которые статистически ведут себя так же, как исходные данные, мы можем создавать суррогатные наборы данных. При обучении таким образом, чтобы защитить конфиденциальность исходных данных (например, с помощью таких методов, как дифференциальная конфиденциальность или оценка риска раскрытия информации перед публикацией данных), такие наборы данных могут обеспечить понимание и полезность, не раскрывая личные данные публично, и могут использоваться для решения многих проблем, о которых говорилось во введении. Их также можно использовать для конвейерной разработки и разработки прототипов, а также для совместной работы. Кроме того, значительно облегчается совместный открытый источник данных, методов и результатов. Впоследствии это может положительно сказаться на общем ходе исследований.

Генерация синтетических данных с помощью моделей синтеза: многоголовая генеративно-состязательная сеть
Во многих случаях синтез данных выполняется с использованием генеративно-состязательных сетей. Эти системы оказались очень эффективными в создании фотореалистичных изображений, таких как синтетические лица, показанные на рисунке ниже. В этом случае StyleGAN2 был обучен на значительном наборе данных человеческих лиц. Показанные здесь изображения полностью синтетические — виртуальные люди.

Для общего понимания GAN представьте себе два компонента модели, а именно генератор и дискриминатор, которые обучаются состязательным образом. Это означает, что оба компонента работают против своего соответствующего аналога, тем самым улучшая друг друга в обучении. В то время как генератор все лучше и лучше обманывает дискриминатор, заявляя, что синтетические данные исходят из реального набора данных, дискриминатор все лучше и лучше выявляет все более мелкие различия между синтетическим и реальным образцом, что усложняет работу генератора — обман дискриминатора. . Чтобы создать синтетическую выборку, генератор берет вектор случайного шума в качестве входных данных и преобразует его в выходные данные той же формы, что и обучающие данные. Затем дискриминатор берет эти сгенерированные данные в качестве входных данных и выводит вероятность того, что входные данные являются записью из реального распределения данных. Этот шаг повторяется с реальными данными, что улучшает способность дискриминатора различать настоящие и поддельные данные. Говоря абстрактно, информация о том, что выдало поддельную точку данных, передается генератору для улучшения его возможностей синтеза. После обучения генератор можно использовать для генерации случайных примеров, снабжая его различными шумовыми входными данными. Пример простой архитектуры генератора 3D-изображений показан ниже. Выходные данные, показанные на предыдущем рисунке, являются результатом хорошо обученного генератора из модели StyleGAN2 с 12 различными векторами шума. Для более глубокого понимания внутренней работы GAN эта статья является хорошей отправной точкой.
Необходимо внести довольно много изменений в общую архитектуру GAN, чтобы обеспечить мультимодальный синтез клинических данных, как это предлагается в этой статье. Если вам интересно узнать о технических деталях и увидеть некоторые примеры конечного продукта синтеза, ознакомьтесь со второй частью этой статьи!