Нейронные сети могут улучшить предсказание лекарственной устойчивости патогенов

В этом посте я собираюсь рассмотреть недавнюю статью о стыке медицинских исследований, моделирования и машинного обучения. В статье Грин А.Г., Юн Ч.Х., Чен М.Л. и другие. Сверточная нейронная сеть выделяет мутации, связанные с устойчивостью Mycobacterium tuberculosis к противомикробным препаратам. Нац. коммуна 13, 3817 (2022). https://doi.org/10.1038/s41467-022-31236-0 описывает два подхода к обучению моделей нейронных сетей для прогнозирования устойчивости данного штамма M. tuberculosis (MTB). , до 13 антибиотиков на основе его генома. Преимущество этого метода моделирования заключается в создании карты значимости, которая выделяет функции, оказывающие наибольшее влияние на прогноз, тем самым устраняя некоторые проблемы, связанные с объяснимостью модели.

Постановка проблемы

Туберкулез (ТБ) является ведущей причиной смерти во всем мире от инфекционного возбудителя. Его возбудитель, M.tuberculosis (или MTB), постепенно вырабатывает устойчивость к антибиотикам — процесс, представляющий угрозу для здоровья населения. Хотя эмпирическое тестирование устойчивости изолята MTB к ряду антибиотиков для каждого пациента может быть наиболее точным методом, оно может занять несколько недель и не позволит провести своевременное лечение. Молекулярная диагностика изолята занимает всего несколько часов или дней, но фокусируется только на определенных локусах в последовательности генома. Поэтому модели машинного обучения, изучающие зависимость фенотипа (лекарственной устойчивости) от генотипа возбудителя (структуры диагностируемых локусов), могут дать требуемое решение.

Модели с одним и несколькими препаратами

Авторы описывают два метода моделирования: первый, названный SD-CNN (Single Drug CNN), обучает 13 различных CNN, каждая из которых предсказывает устойчивость к разным препаратам. Второй, названный MD-CNN (Multi Drug CNN), предсказывает устойчивость к 13 лекарствам одновременно. В основе этого метода моделирования лежит новаторская работа по многозадачному обучению (Caruana, R. Multitask learning. Mach. Learn. 28, 41–75 (1997), которая показала, что , несколько вопреки интуиции, обучение CNN для одновременного выполнения разных задач действительно может улучшить ее производительность по каждой отдельной задаче, учитывая, что задачи связаны.Объяснение этого результата состоит в том, что функции, генерируемые одной задачей, полезны для производительности. других задач (например, обучение автономной модели управления автомобилем с помощью вспомогательной задачи обнаружения дорожных знаков). Преимущества многозадачного обучения в генетических исследованиях были продемонстрированы Добреску, А., Джуффрида, М. В. и Цафтарис, С. А. Делая больше с меньшими затратами: многозадачный подход к глубокому обучению при фенотипировании растений, Front. Plant Sci. 11, 141 (2020).

Вход модели

Для обучения использовались данные 10 201 изолята возбудителя M.tuberculosis, которые были протестированы на устойчивость к 13 антибиотикам. Входными данными для MD-CNN является массив 5 x 18 x 10 291, где 5 – это однократное кодирование 4 нуклеотидов (аденин, тимин, гуанин, цитозин и пробел). характер), 18 — индекс локуса (авторы используют 18 локусов с известным отношением к лекарственной устойчивости), а 10 291 — длина самого длинного локуса. Локус (множественное число — локусы) — это определенное, фиксированное положение в хромосоме, где находится определенный ген или генетическая последовательность. Локус определяется его начальным индексом и конечным индексом, считая нуклеотиды от согласованной начальной точки. Разные локусы имеют разную длину.

Входные данные для каждой из 13 моделей SD-CNN состоят из подмножества из 18 локусов, которые, как известно, влияют на устойчивость к этому лекарству.

Выход модели

Выходные данные модели MD-CNN представляют собой 13-элементный вектор (индексированный в соответствии с противотуберкулезными препаратами), каждый из которых содержит сигмовидную уверенность в том, что этот штамм устойчив к этому препарату. Модели SD-CNN возвращают одно сигмовидное значение, соответствующее достоверности резистентности для этого препарата.

Архитектура модели

Модель представляет собой CNN, состоящую из 2 одномерных блоков свертки и максимального объединения, за которыми следуют 3 полносвязных слоя. Описание приведено на рис. 1.

Полученные результаты

Модели SD-CNN и MD-CNN сравнивались друг с другом и с двумя предыдущими моделями: Reg+L2 и моделью SOTA WDNN (Чен, М.Л. и др. Помимо множественной лекарственной устойчивости: использование редких вариантов с моделями машинного и статистического обучения в Прогноз устойчивости Mycobacterium tuberculosis. EBioMedicine43, 356–369 (2019)). Сравнение проводилось с использованием 5-кратная перекрестная проверка на обучающем наборе.

Тесты показывают, что MD-CNN работает наравне с WDNN (текущая модель SOTA, которая использует в качестве входных данных логическое кодирование известных мутаций в последовательности генома. Она разработана как комбинация многослойных персептронов, т.е. не использует свертки). Средняя AUC MD-CNN составила 0,948 (по сравнению с 0,960 для WDNN) для препаратов 1-го ряда и 0,912 (по сравнению с 0,924 для WDNN) для препаратов 2-го ряда. SD-CNN был немного менее точным с 0,888 для обеих групп препаратов. MD-CNN и SD-CNN продемонстрировали способность обобщать новые данные, достигая примерно одинакового AUC на отдельно собранном тестовом наборе из 12 848 изолятов). — Графическое сравнение моделей см. в оригинальной статье.

Авторы отмечают, что модель MD-CNN достигла более высокой чувствительности, чем модели SD-CNN (т. е. меньший процент промахов устойчивости к лекарственным средствам), в то время как модели SD-CNN достигли более высокой специфичности (т. е. меньший уровень ошибочной классификации изолята как устойчивого). к данному препарату). Другими словами, MD-CNN менее консервативен и имеет тенденцию классифицировать больше случаев как «устойчивые».

Анализируя производительность SD-CNN, авторы рассмотрели ложноотрицательные случаи. Изучив данные, они заметили, что изоляты с идентичными входными данными модели были в некоторых случаях устойчивыми, а в других — чувствительными к одному и тому же препарату (т. е. их классификация достоверности различалась). Это приводит авторов к гипотезе о том, что мутации в локусах, не включенных в модель SD-CNN, ответственны за резистентность.

Объяснимость и картирование значимости

Авторы используют DeepLIFT (Аванти Шрикумар, Пейтон Гринсайд и Аншул Кундайе. 2017. Изучение важных функций путем распространения различий в активации. В материалах 34-й Международной конференции по Машинное обучение — том 70 (ICML'17). JMLR.org, 3145–3153.), метод расчета вклада входных признаков в результат для объяснения прогнозов модели. Изменяя ввод генотипа in silico (имитация ввода) и сравнивая результат с «эталонным результатом», авторы находят варианты, которые ранее были неизвестны, чтобы повлиять на лекарственную устойчивость MTB.

Несколько мыслей об архитектуре модели

Как инженер по машинному обучению и исследователь, больше всего занимающийся компьютерным зрением, я многому научился, прочитав эту статью и соответствующий справочный материал. Очевидно, что нейронные сети обладают большим потенциалом для улучшения методов моделирования в области медицины и биологии. Сравнивая методы, используемые в этой модели, с моим собственным опытом, я подумал о нескольких вещах, которые мне было бы интересно попробовать, если бы я работал над вторым этапом этого исследования:

  1. Кодирование гэпа — четыре нуклеотида закодированы в кодировке 1-hot плюс дополнительный элемент, представляющий гэп. Мне любопытно посмотреть, улучшатся ли результаты, если представление промежутка изменить на просто [0, 0, 0, 0].
  2. Глубина функций — в представленной здесь архитектуре используется одна функция во всей модели. Моя интуиция, полученная благодаря компьютерному зрению, заставляет меня задуматься о возможностях диверсификации функций. Как и в компьютерном зрении, процесс обучения может сходиться таким образом, что одна позиция на изображении может иметь различные функции, например. «округлость», «металличность», «гладкость», я думаю, это может быть то же самое в геномной последовательности.
  3. Тип заполнения — авторы используют "допустимый" отступ в своих сверточных слоях, а не "одинаковый’, которое обычно используется в компьютерном зрении. Это постепенно укорачивает последовательность по мере ее передачи между слоями. «Та же самая» забивка сохраняет пространственный размер последовательности, позволяя структурам рядом с краем последовательности сохранять некоторый эффект даже на более поздних этапах модели. Это также позволяет выполнять такие операции, как объединение выходных данных из слоев на разных этапах модели.
  4. Механизм внимания — (Васвани и др., Attention Is All You Need, 2017, NIPS) — блоки внимания полезны для обнаружения тонких отношения между удаленными токенами в последовательности (например, разные части предложения в НЛП), и они особенно важны, когда значение одного токена может иметь существенное влияние на интерпретацию значения другого токена. Было бы интересно посмотреть, улучшит ли результат добавление блока внимания, и если да, то используйте его, чтобы проследить скрытые отношения между областями в локусах.