Проблемы медико-биологических наук, решаемые за счет использования возможностей нейросетевых архитектур

Как специалиста по данным, вас когда-нибудь спрашивали: «Имитирует ли глубокое обучение мозг?» В этот момент вы, вероятно, покраснетесь, потому что задаетесь вопросом, что и как реагировать. Что ж, нет неправильных вопросов, но есть определенно плохие ответы … Этот блог пытается уточнить ответ, давая интуицию на вопрос, зачем использовать различные нейронные сети (NN) моделирует в свете удивительной области, известной как молекулярная биология. Эти миниатюрные молекулы редко можно увидеть (возможно, они живут на грани своего загадочного мира :-); однако они полностью составляют наше существо, в каждой клетке любого существа на планете. Как было указано в названии,

В этом выступлении я расскажу о десяти проблемах, связанных с наукой о жизни, которые решаются с помощью примерно десяти архитектур нейронных сетей, а также укажу на недостатки других традиционных алгоритмов машинного обучения (ML).

Подобно машине времени, мы будем перепрыгивать из прошлого в настоящее через эволюцию организмов к функциям РНК, ДНК, белка и клетки (упорядоченных, как диктует природа). Изучив первичную литературу элиты в этой области (около 30 статей), мы узнаем о генетических заболеваниях, вирусах и даже поймем, что такое Нобелевская премия по химии 2020 года (CRISPR).

Рисование эскизов для описания различных нейронных сетей, связанных с каждой соответствующей задачей, является темой этого обсуждения. Начнем с простейших нейронных сетей: многослойный перцептрон, свертка (CNN) и долговременная краткосрочная память (LSTM), мы восполним пробел в понимании сложных моделей, основанных на обработке изображений, таких как остаточные, генеративные состязательные сети (GAN) и контрастные сети. Переход к обработке естественного языка (НЛП) путем перевода языка жизни (белков) с появлением трансформеров (благодаря вниманию механизм), а также классические модели, такие как модели последовательностей и автоэнкодер-декодер. Вдохновленные передачей сообщений молекулами, мы будем использовать граф нейронные сети (GNN), представляя молекулу, в которой атомы узлы и связи ребра. Не менее важно, что мы взломаем оптимальные функции активации с помощью слоев maxout. И последнее, но не менее важное: переключившись с игр Atari на ячейки, мы завершим этот разговор глубоким подкреплением обучением (как и в большинстве разговоров). Основы машинного обучения будут периодически рассматриваться в разделах расширение данных, трансферное обучение и t-SNE.

Я надеюсь, что после прочтения этого блога вы будете знакомы с НС (и, конечно, с молекулярной биологией) как свои пять пальцев.

Словарь

Я включил ниже список фраз, которые стоит знать (не только для чтения этого блога) из моего опыта работы с данными в биоинформатике.

Филогенетика, мотивы, экзом, in-silico, гликаны, олиго-полигенный, омикс, метагеномика, биополимер, неоднородности, патоген, нервный гребень, экзон, сплайсинг - ДНК, экзом, бактериальная кладка, хроматин, дерево текса , кодировщик k-mer, клеточная, генная онтология

Испытания

Для простоты я сделал вывод, что следующие заголовки лучше всего отражают основную идею каждой задачи: (1) мотивация задачи, (2) то, что мы пытаемся предсказать, (3) каково обоснование использования этой конкретной архитектуры, (4) ввод (наиболее важно, представление) и вывод сети для обучения и, наконец, (5) альтернативные методы (если есть). Внутренний и внешний порядок задач организован в соответствии со сложностью модели, и наиболее важные статьи каждой задачи выделены, чтобы различать ее среди других (хотя все документы были строго отобраны - гарантировано!). При этом важно отметить, что некоторые обсуждаемые здесь статьи все еще находятся в состоянии arxiv (ожидают принятия). Тем не менее, я все еще вижу полезную ценность в их знании для понимания общего архитектурного выбора, учитывая процесс проверки (которого нет в этом блоге, может быть, в следующий раз - обновление: вот ссылка на мой блог о проверке, рассматривать как приложение). А пока желаю вам познакомиться с передовыми методами машинного обучения, связанными с молекулярной биологией.

Без лишних слов, давайте перейдем к революционным вызовам, с которыми мы сейчас сталкиваемся в эту захватывающую исследовательскую эпоху.

1. Генетические болезни

Через призму генов каждый аспект жизни рассматривается посредством последовательного кодирования. Однако в клинических случаях изучена лишь частичная информация о конкретных заболеваниях. Как можно узнать диагноз заболевания (фенотипа) на основе анализа участков генов (генотипа)? Это серьезный вопрос, поскольку ценность жизни в этом возрасте резко возросла по сравнению с прошлыми поколениями ... Тем не менее, и биологам, и биоинформатикам еще предстоит пройти долгий путь в изучении того, какие гены ответственны за определенные заболевания, например следующие случаи. В этом разделе я опишу, как МО может потенциально применяться в качестве диагностического инструмента, прокладывая путь для будущих клинических приложений и продвигая персонализированную медицину, и в целом, надеюсь, улучшая качество нашей жизни.

Прогнозирование группы заболевания из контрольной группы для in-silico диагностики на основе экзома болезни Крона CD [2] и биполярного расстройства BD [1 ] пациентов, а также прогнозирование характеристик выживаемости при раке легких на основе данных по экспрессии генов [3] - наша тема. Входными данными является тензор Fg × Ng (Ng обозначает список генов, участвующих в этом конкретном заболевании, а Fg - список признаков), а выходными данными являются оценки вероятности. Например, в случае CD в литературе были обнаружены два набора генов {222,691} (количество генов в каждой группе), которые привели к заболеванию, и 11 признаков, описывающих гены (представляют мутационную нагрузку каждого гена как экзонную, интронную, сплайсинговую). и т. д.) [2]. В третьем случае, который классифицирует тип опухоли, входные изображения (175x175 пикселей) были сгенерированы путем прямого сопоставления значений экспрессии генов с фиксированным набором цветов с использованием доменной информации для определения положения каждого гена внутри изображения [3].

Архитектура довольно проста, в ней используются базовые принципы NN, включая полностью связанные уровни (многослойные сети перцептронов [2]) и сверточные уровни (для хромосомного представления [1]) и передачи- обучение (для изображений [3]). Возникает вопрос, подходят ли NN для классификации генов даже на базовом уровне кодирования? Вероятно, будет справедливо сказать, что (общий) нейрон будет содержать некоторое «скрытое» сжатое представление входных характеристик. Это представление оптимизировано, чтобы следующий уровень мог различать наблюдения и элементы управления. В этом смысле кодирующие сети, вероятно, содержат некоторое значительно упрощенное представление генов, а модели NN используют методы скользящего окна (в сверточном случае), например, для понимания взаимодействий между их представлением (функциями).

2. РНК-связывающие белки.

Основные паттерны последовательностей РНК состоят из коротких смежных аминокислот, называемых мотивами, с которыми связываются белки (РНК-связывающие белки RBP). Вариации мотива в последовательностях изменяют аффинность связывания. Другой паттерн, который влияет на связывание, - это вторичная структура РНК, повышающая или понижающая сродство связывания в зависимости от предпочтения RBP.

Задача прогнозирования связывания белков не так проста, учитывая следующие ограничения данных различных биологических факторов, влияющих на связывание. (1) Доступность высококачественных данных (генетические последовательности часто довольно зашумлены и предвзяты) и метаданных (эмпирически идентифицированные вторичные структуры) - это проблема, которая все еще остается нерешенной. (2) Этот эксперимент включает короткие последовательности, которые не отражают разнообразия вторичных структур, которые могут образовывать РНК. (3) РНК-конкуренция - это in vitro, поэтому она не точно воспроизводит условия in vivo, в которых присутствуют другие белки и потенциально конкурируют за сайты связывания.

Это были недостатки, теперь давайте изменим наше отношение к машинному обучению (положительная сторона). Многие аминокислоты могут быть взаимозаменяемыми в биологическом контексте, но замена глицина на аланин (G- ›A) может быть нейтральной, тогда как замена триптофана на аланин (T-› A), вероятно, не будет. Следовательно, имеет смысл и даже прагматически возможно уменьшить размеры, исследуя подходящие кодеры для представления аминокислот. Встраивание, используемое в языковых моделях, снижает размерность ввода, поскольку в человеческих алфавитах много букв, и они могут образовывать много слов разной длины. Однако для последовательностей ДНК / РНК есть только 4 аннотирующие буквы {T / U, A, C, G}, при однократном кодировании все нуклеотиды одинаково похожи и непохожи, поэтому классификатор должен выяснить, как они соотносятся с отдельные предметы и в комбинации в последовательности.

После описания изображения следует архитектурная часть; CNN-фильтры можно рассматривать как мотивы, золотую жилу для биологов, поскольку они позволяют им интерпретировать предпочтение связывания белка и сравнивать его с существующими знаниями о предпочтениях связывания. С другой стороны, уровни LSTM предлагают более дальнодействующую контекстную зависимость, чем фильтры CNN, и при использовании в настройке двоичной классификации их выходные данные интерпретируются непосредственно как профиль привязки. Поскольку узлы LSTM имеют память и могут запоминать и обнаруживать контекстные подсказки, которые важны для задачи классификации, они особенно полезны при анализе длинных последовательностей, таких как последовательности РНК. Они не моделируют ничего конкретно относительно вторичной структуры, а вместо этого «просто» изучают контексты связывающих мотивов. Узлы LSTM по своей природе однонаправлены, потому что они зависят от времени; у них есть память о прошлом, но нет знаний о будущем. Каждый временной шаг - это нуклеотид, поэтому для того, чтобы модель знала как о восходящих, так и о нисходящих элементах, мы используем уровень LSTM для анализа прямой последовательности и другой уровень для анализа обратной последовательности. Это в целом полезный подход, поскольку даже языковая обработка требует как прошлых, так и настоящих знаний, чтобы полностью понять смысл предложения. Их объединение называется двунаправленной архитектурой LSTM (biLSTM), но представляет собой примерно два обычных уровня LSTM.

Таким образом, мы используем двунаправленные слои, потому что связывание белков по своей природе не является направленным процессом, но на него могут влиять последовательности, как восходящие, так и нисходящие. Слои LSTM DeepCLIP [5] подаются на основе различных распределений мотивов, обнаруженных сверточным слоем. В некотором смысле слои CNN также можно рассматривать как увеличительные стекла или бинокли, которые направляют внимание слоев LSTM, улучшая эти области входной последовательности. Последняя модель в этой области называется ResidualBind [6], демонстрируя, что использование одних только сверточных слоев неэффективно для захвата всех вариаций последовательности, потому что RBP имеют разные степени сложности в своих режимах привязки (некоторые привязки режимы могут быть простыми, а другие - сложными). Таким образом, модуль остатка позволяет сети строить на основе шаблонов первого сверточного слоя, учитывая расширенный дальний контекст сверточного слоя.

3. Эволюция

Центральная роль филогении в эволюционной биологии выводится в Происхождении видов Чарльза Дарвина, где единственный рисунок, включенный в книгу, - это набросок гипотетической филогении некоторых видов ( Дарвин 1859 г.). Гениальность филогенетической репрезентации отражается в ее простой, но элегантной манере организации, определяемой как дерево. Здесь исследуются несколько задач прогнозирования для анализа построения филогенетического эволюционного дерева; от оценки тяжести заболевания ВЗК с использованием данных метагеномики [7], прогнозирования таксономического происхождения гликанов [8], до прогнозирования топологии деревьев с четырьмя таксонами (т.е. деревьями квартетом) [9].

В моделях CNN данные метагеномики можно в общих чертах интерпретировать как изображение, за которым следует концепция близости (расстояния) между элементами. Как и на изображениях (в пикселях), то же самое относится и к кладам бактерий в их филогенетическом дереве. Данные метагеномики были преобразованы в набор изображений [7], по одному для каждого образца, где пиксели, соответствующие одному и тому же виду бактерий, имеют одинаковое положение (координаты) во всех образцах, а интенсивность пикселя соответствует обилию данных пикселя. .

В этом случае сверточный слой играет роль в функционировании в соответствии с политикой филогенетической связи между кладами бактерий, которая позже используется классификатором при различении пациентов. Прежде чем слишком глубоко погрузиться в архитектурные аспекты, давайте поговорим об ограничениях других методов машинного обучения, таких как SVM, RF и т. Д., Когда входные данные являются мультимодальными и состоят из последовательности и филогенетическое дерево (как в нашем случае). В отличие от слоя свертки, который заботится о расстояниях между узлами дерева, ни один альтернативный метод не может обрабатывать обе модальности одновременно таким подходящим образом. Более того, природа неоднородностей в процессах замещения между сайтами и линиями требует явного учета моделей замены в эволюции последовательностей. В этом случае другие методы могут потерпеть неудачу из-за неправильной спецификации и недостаточности модели.

Теперь, когда мы находимся на одной странице об эффективности NN для нашей проблемы, давайте подробно разберемся с вводом и выводом. Абстрактивно первоначальная задача филогенетического предположения квартета [9] - это просто предсказание дискретного состояния (из трех) на основе входных данных четырех последовательностей. Таким образом, четыре выровненные аминокислотные последовательности размером 4 × 20 × L вводятся в остаточную сеть, где 20 обозначает возможные состояния аминокислот в любом сайте последовательности белка, 4 обозначает четыре таксона, а L обозначает длины последовательностей. Выходные данные сети включают три числа, представляющих вероятность того, что данный таксон является сестрой других таксонов. Теоретически остаточные слои запоминают входную информацию как аддитивную часть выходных данных, позволяя создавать более глубокие сетевые структуры, не страдая от эффекта исчезающих градиентов, следовательно, потенциально могут способствовать лучшему изучению сложных эволюционных процессов [9].

4. CRISPR

Кластерная система с регулярными интервалами между короткими палиндромными повторами (CRISPR) - ассоциированная (Cas9) система теперь является известной техникой в ​​редактировании генов (особенно после присуждения Нобелевской премии в этом году Эммануэль Шарпантье и Дженнифер Дудна). CRISPR / Cas9 в первую очередь был обнаружен у Streptococcus pyogenes, который использует этот механизм для защиты от вторгшихся вирусов. С тех пор ДНК-инженерия CRISPR быстро продвинулась вперед и уже применяется для лечения различных заболеваний. Вкратце, CRISPR использует направляющую РНК (гРНК), которая связывается с целевым участком ДНК. Впоследствии нуклеаза, такая как связанный с CRISPR белок 9 (Cas9), вызывает конформационные изменения перед расщеплением ДНК. Однако у него есть нецелевой риск. Вырезание нецелевых сайтов серьезно повредит клетки [12]. Таким образом, целью исследования является точное предсказание эффективности нокаута одной гРНК на мишени [10]. Для обучения с учителем входными данными является матрица L × 4 последовательности гРНК (4 нуклеотида и длина L-последовательности), а выходными данными является известная эффективность нокаута на цели.

Впечатляющая способность сетевых сетей понимать внутреннюю структуру данных, которая исходит из гибкого сочетания типов слоев и топологий, выделяется по сравнению с мелкими моделями (например, деревьями решений). Например, сверточные слои обладают уникальной особенностью обработки информации данных через общее локальное соединение. Учитывая, что основания ДНК и РНК влияют друг на друга локально, сверточные слои могут быть рациональным выбором для решения этих проблем, связанных с последовательностями. RNN также является подходящим способом моделирования проблем, связанных с sgRNA, поскольку последовательные данные естественным образом соответствуют топологии RNN. Однако сети RNN обычно сложно обучать и требуют большего количества данных для достижения приемлемой производительности, чем сети CNN. Таким образом, добавление кейсов для изучения посредством увеличения данных помогает облегчить способность к обобщению [12].

5. Некодирующая ДНК

Пожалуйста, сядьте, пока вы это читаете, потому что вы скоро услышите новости о собственном теле. Скажем прямо, об одном из фундаментальных фактов генетики. Ученые признают (написано черным по белому): «известно, что более 98% генома человека не кодирует, и 93% вариантов, связанных с заболеванием, находятся в этих регионах» [14]. Если вы уже ошеломлены этой теорией, позвольте мне утешить вас тем, что вы не одиноки; мы плывем в одной лодке к неизведанному, надеясь понять функцию этих регионов. Однако эта задача является сложной, поскольку функции большинства этих регионов не совсем понятны. Прогнозирование функциональных эффектов некодирующих вариантов только на основе последовательности ДНК с использованием подходящих подходов выделения признаков и выбора для конкретных функциональных эффектов практически решает проблему классификации с несколькими метками. Для тех, кто знаком с биологией, общая картина для этой задачи будет представлена ​​как прогнозирование связывания факторов транскрипции (связывание с белками), обработка наборов данных, подготовленных DeepSEA и DanQ из с классификацией 919 двоичных целей (характеристик хроматина) на 1000 входных последовательностей в длину.

DeepSEA предложила модель, которая использует CNN для захвата мотивов из необработанных последовательностей ДНК, как бы просто это ни звучало: эта модель содержит три последовательных слоя свертки, за которыми следуют полностью связанные слои, которые выполняют распознавание образов и объединение слоев для пространственного масштабирования. [13]. Сверточный слой на самом деле очень похож на сканирующие мотивы в последовательности ДНК, которые могут напоминать то, как белки, такие как фактор транскрипции, распознают последовательность ДНК. Затем более высокие уровни распознают паттерны последовательности по более длинной последовательности и фиксируют взаимодействия мотивов и мета-паттерны. DANQ, с другой стороны, оптимизирует модель, добавляя поверх этой CNN сеть biLSTM. Обоснование состоит в том, чтобы интерпретировать мотивы как следование регулятивной грамматике, управляемой физическими ограничениями, которые диктуют пространственное расположение in vivo и частоту комбинаций мотивов, свойство, связанное с тканеспецифичными функциональными элементами, такими как энхансеры [14] . Пока все хорошо, но как насчет более острого подхода? Может быть, чтобы немного укрепить грамматические ассоциации, пора ли механизму внимания? В этой работе [15] представлен ансамбль различных архитектур, начиная со сверточного слоя, который фиксирует регуляторные мотивы, затем рекуррентный уровень фиксирует регуляторную грамматику и, наконец, уровень внимания категории для выбора соответствующих действительных характеристик различных функций. за которым следует плотный слой, который классифицирует предсказательные метки [15].

Разные головы могут обращать внимание на разные виды информации из разных скрытых пространств. Оценка внимания (достигается суммированием множественных головок) может приблизительно определять функциональные сайты в последовательностях ДНК, что очень полезно для интерпретируемости. Более того, использование стратегии распределения веса механизмов внимания снижает количество локально связанных параметров с 10 миллионов до миллиона. Способ добиться этого - определить соответствующие характеристики для каждой двоичной цели, а затем локально связанный уровень устраняет все ненужные соединения для каждой конкретной цели [15]. Чтобы дать вам представление о том, как распознавание мотивов служит медицине, взгляните на следующий «мокрый эксперимент»: из тысяч изученных мотивов сотни были сопоставлены с известными мотивами, обладающими значительным потенциалом развития жизненно важных функциональных эффектов, таких как NRSF, ЭЖ2 и П300 [15].

6. Грамматика белков

Обработка естественного языка НЛП была обобщена для понимания языка жизни (белков). Методы НЛП часто независимы в дорогостоящих размеченных данных благодаря неконтролируемому обучению, которое упрощает реализацию языка жизни (грамматически) в белковых последовательностях (включая одну из самых распространенных модификаций белков, гликаны). Основная концепция этого подхода заключается в представлении белковых последовательностей в виде предложений и их составляющих, аминокислот, в виде отдельных слов (в гликанах каждый токен (3-мерный) представляет собой glycoword, который можно найти в данной позиции в гликане [17]). Основная проблема, обсуждаемая в этом разделе, - это интерпретация аминокислот как разговорного языка, что означает раскрытие грамматики (и ее производных, таких как стиль, фигура речи, выражение и т. Д.). Пессимисты относительно доступности биологических / медицинских данных (например, я) будут просветлены, услышав о шкале набора данных по белкам. Очевидно, наборы данных UniRef и BFD содержат до 393 миллиардов аминокислот (слов) из 2,1 миллиарда белковых последовательностей, что делает их самой большой коллекцией белковых последовательностей, доступной на момент написания. (В 22 и 112 раз больше, чем вся английская Википедия) [18].

Одной из архитектур, способных изучать полезные представления белков, является Transformers, которые превосходят подходы, основанные на LSTM, а также неконтекстуализированные методы с использованием word2vec [18], несмотря на его непрозрачность. Тем не менее, сквозь призму внутренней работы Трансформера, механизма внимания, можно исследовать различные свойства белков, как на уровне маркера (свойства белка), так и на уровне пары маркеров (карты контактов) [1]. Подробнее о методах интерпретируемости этих «туманных» моделей мы поговорим позже, а здесь основное внимание будет уделено объяснению предсказаний на уровне экземпляра (апостериорная интерпретация). Модели Transformers связаны с двумя основными подходами: авторегрессия или автоматическое кодирование. Авторегрессия предсказывает следующий токен в последовательности, учитывая все предыдущие токены, в то время как автоматическое кодирование восстанавливает искаженное входное обучение. В задачах перевода, как правило, однонаправленные модели (авторегрессивные) работают с двунаправленными моделями (автоматическое кодирование).

Ниже приводится суммирование / сравнение четырех хорошо известных Transformers, обученных на наборах данных последовательностей белков: Bert, Albert, Transformer-XL, и XLNet . Во-первых, Берт - это двунаправленная модель, которая изначально пыталась восстановить поврежденные токены, а в настоящее время считается стандартом де-факто для трансферного обучения в НЛП. Во-вторых, Альберт уменьшил сложность Берта, жестко распределяя параметры между его слоями внимания, увеличивая количество головок внимания (устраняя пробки на дорогах). В-третьих, Transformer-XL преодолевает препятствие, связанное с максимальной длиной последовательности (около 20% последовательностей в этих наборах данных длиннее 510 аминокислот), что является общим для всех предыдущих Transformer, путем разрезания последовательностей на фрагменты. (чипы), но позволяет передавать информацию между ними для более длительного использования белков, повторно используя свои скрытые состояния фрагментов, которые уже были обработаны. Наконец, XLNet использует аналогичный однонаправленный механизм памяти, представленный Transformer-XL, позволяющий обрабатывать последовательности произвольной длины путем сбора двунаправленного контекста в одном фрагменте памяти [18].

Возвращаясь к интерпретируемости, чтобы исследовать информацию, захваченную на уровне токена, для таких задач, как сайты привязки и вторичная структура, мы фиксируем веса исходной модели и строим классификатор с одним линейным слоем, за которым следует softmax. Для задач зондирования пар токенов (карта контактов) конкатенация попарного вектора признаков обрабатывается поэлементными различиями и произведениями выходных векторов двух токенов [16].

После прочтения всей этой сухой и массивной информации, о чудо, наслаждаясь визуализацией прекрасного визуального встраиваемого пространства, созданного путем проецирования многомерных представлений до двух измерений с помощью t-SNE [18], рис. 6.

Из всех проблем, обсуждаемых в этом блоге, мне больше всего нравится обсуждение следующих двух проблем! Причина, по которой я так взволнован, заключается в сложности модели, построенной как система нейронных сетей, при этом каждое преимущество архитектуры полностью используется, и даже управление другой сетью в модели для получения наилучших результатов (подумайте как лучшая рабочая команда, хотя оптимизированные сети работают от вашего имени…).

7. Функция белков.

Белки контактируют с другими белками в клеточных путях, поэтому понимание функциональности этих путей через сети белок-белковых взаимодействий (ИПП) имеет важное значение. Аннотации терминов онтологии генов (GO) классифицируют белки примерно по 200 различным функциональным классам, собранным в разделы молекулярной функции, биологического процесса и клеточного компонента. Задача состоит в прогнозировании вероятностей терминов GO с учетом входных данных о последовательности и структуре белка (представленных в виде графиков, полученных из взаимодействий молекул в трехмерной форме). Для экспериментов выбраны два типа разнообразия последовательностей: с использованием последовательностей от одного и того же организма или от разных видов, в то время как последние используют преимущества крупномасштабных обучающих наборов и преодолевают проблему ограниченного пространства признаков, общего только для белков одного и того же организма [21] .

В DeepFRI сверточная сеть графа GCN получает в качестве входных данных: последовательность белков с горячим кодированием - ›два сложенных вперед уровня LSTM по 512 единиц в каждом -› обученные вложения + матрица смежности (граф белков) и возвращает результат: единую матрицу признаков, которая затем передается в два полностью связанных слоя для получения окончательных прогнозов [19]. Матрица смежности, также называемая картой контактов, представляет собой двумерную двоичную матрицу, представляющую расстояние между всеми возможными парами белковых соединений. Слои свертки подходят для такого рода структурных задач, поскольку они сворачивают белковые элементы по дискретным путям (через карты контактов), которые различны в первичной последовательности, но близки друг к другу в трехмерном пространстве. Формулировка Kipf & Welling [30] определяет уравнение представления, добавленное к первому слою GCN, которое указывает умножение матриц карты контактов и скрытых состояний последнего слоя LSTM.

Кодируют ли функции активации, обычно используемые в NN, такие как ReLU, Sigmoid, Tanh и т. Д., Регулярные или общие паттерны в биологических последовательностях? Другой архитектурный подход - это сеть, слои которой имеют функцию активации maxout. Активация maxout слоя - это поэлементный максимум набора входных аффинных преобразований. Эти функции активации аппроксимируют любую произвольную непрерывную функцию и превосходят другие обычные функции активации, параметризованные конкретными гипотезами (например, выпрямленные или сигмовидные функции).

Из-за очень разреженного и несбалансированного пространства, занятого этой задачей прогнозирования, на помощь приходит upport vector machine (SVM), использующий сетевые функции maxout и обеспечивающий независимую калибровку маржи, двоичную классификацию для каждого класса. (с его конкретными границами решения) [20]. В этом контексте следует упомянуть структуру структуры сети (с точки зрения количества единиц). Хотя для задач уменьшения размерности обычно сокращают количество единиц на каждом уровне, это не всегда так. В частности, здесь, потому что сеть изначально была обучена как большой классификатор с несколькими метками, в результате чего у вас осталось большое количество классов, то есть несколько сотен выходных единиц. Следовательно, более поздние слои часто обеспечивают большую глубину, что позволяет интерпретировать представления внутренних функций по-разному. Таким образом, требуется большое пространство для кодирования такого высокоинформативного представления [20].

8. Вирусы

Иммунная система нейтрализует антиген, вирусного захватчика, рекрутируя антитела, чтобы остановить вторжение. Однако адекватный ответ может длиться от нескольких дней до недель. Может ли предсказание новых вирусных мутаций привести к заранее определенным нейтрализующим антителам? Этот процесс высокоселективного взаимодействия между антигеном и антителом определяет основу опосредованной антителами нейтрализации вируса. Предсказание соответствующих последовательностей антиген-эпитоп, синтезируемых вирусными геномами, на самом деле является более широкой проблемой, чем интуитивно предполагалось, учитывая мутации эволюционирующих популяций у разных вирусных видов, изучая обобщенную эволюционную модель с обратимым временем [24].

Для процесса обучения оценка проводилась путем сбора последовательностей антитело-антиген различных вирусов, включая ВИЧ, грипп, лихорадку денге, атипичную пневмонию, лихорадку Эбола, гепатит и т. Д., Чтобы найти наиболее стабильные антитела с использованием функций моделирования в биоинформатике, структурной биологии и молекулярной динамике [22]; и два представления были разработаны. Первое представление называется графическая характеристика белка GPF [22,23], а второе - бинарное филогенетическое дерево (частично структурированное) [23]. Чтобы дать вам представление о представлении GPF, предположим, что у вас есть последовательность длины N. Во-первых, построение матрицы смежности Nx20 (20 обозначает общее количество аминокислот, представляющих белок, а N - длину последовательности). производится. Тогда, поскольку у нас есть 38 признаков F для каждой аминокислоты, форма матрицы признаков будет 20x38. Теперь мы умножаем смежность на матрицу признаков, чтобы построить вложение графа. Мы называем этот продукт вложением графа, и он имеет форму NxF. Наконец, мы имеем в виду пул над встраиванием графа, чтобы преобразовать его в вектор Fx1. Этот вектор умножается на его транспонирование, давая нам окончательную матрицу FxF. Наконец, матрица FxF выравнивается, чтобы создать вектор размером 1444 (38x38 = 1444).

Другая архитектура основана на seq2seq генераторах в рамках двусторонней сетевой структуры GAN, которая генерирует полные белковые последовательности, дополненные случайным шумом (таким образом, избегая ручного индивидуальная работа специалистов) [24]. Эти возможные мутации будущих популяций вирусов представляют собой полноразмерные белки длиной более 300 аминокислот, имитирующие лежащее в основе нормальное распределение N (0,1), из которого может исходить исходная последовательность антигена, за счет использования однонаправленных и двунаправленных LSTM (аналог перевода предложений) [22,23]. Эти новые последовательности не должны существенно отличаться от исходного антигена (наличие чрезвычайно разнообразных последовательностей не имеет большого биологического смысла). Следовательно, автокодировщик используется как дискриминатор, который принимает две последовательности и определяет, являются ли входные последовательности реальной парой родитель-потомок или нет. Имейте в виду, что причиной использования biLSTM на уровне кодера и LSTM в декодере (а не какой-либо другой их вариации) является общая высокопроизводительная архитектура, которая решает, в частности, задачи перевода с использованием моделей seq2seq в сочетании с LSTM. Для biLSTM последовательность вводится как в прямом, так и в обратном направлении, что требует полной последовательности (это не проблема для кодировщика, потому что у нас уже есть вся входная (родительская) последовательность). Однако это не имеет смысла с декодером, потому что выходная (дочерняя) последовательность генерируется на каждом шаге, пока мы не достигнем точки остановки; таким образом, это однонаправленный LSTM.

9. Представительство белков

Я решил представить эту тему сразу после всех разделов, посвященных белкам, как троп к теме «это жизнь», означающую, что оптимизированное представление белка, которое мы активно обсуждали в ходе последних трех проблем, является заключены в этом разделе.

Предварительно обученные встраиваемые представления биологических последовательностей, которые фиксируют значимые свойства, могут облегчить многие проблемы контролируемого обучения в биологии. Программа встраивания обучающей белковой последовательности отображает любую белковую последовательность в последовательность векторных встраиваний, по одному на аминокислотное положение, кодируя структурную информацию. Идеальное встраивание четко разделяет домены набора данных скрытого пространства, не требуя настройки параметров или дополнительных меток оценки.

Прелесть репрезентативного обучения состоит в том, что все биологические свойства автоматически изучаются чисто на основе данных, когда модели выявляют скрытые особенности, которые необходимы для обеспечения семантического и грамматического значения встречающихся в природе белковых последовательностей. Хотя другие методы не кодируют структурную информацию, Bepler et al. каркас сопоставляет любую последовательность белка с векторным встраиванием, кодируя как последовательность, так и структуру. Их модель была обучена с использованием трех слоев biLSTM с 512 скрытыми единицами в каждом и конечной выходной размерностью встраивания 100 последовательностей белков с двухчастным механизмом обратной связи, который включает информацию из (i) глобального структурного сходства между белками и (ii) попарных карт контактов остатков. для индивидуальных белков [25].

Контрастивное обучение было отмечено Оордом, сказав : «одной из наиболее распространенных стратегий обучения без учителя было предсказание будущего. , отсутствующая или контекстная информация… В нейробиологии теории предсказательного кодирования предполагают, что мозг предсказывает наблюдения на различных уровнях абстракции ». Желаемое встраивание фиксируется в латентном представлении белка во время самостоятельного предварительного обучения модели, которая представляет пятна как захватывающие мотивы, необычные структурные элементы, области необычных аминокислотный состав, части каталитических центров и т. д. Общая формулировка такова: задан входной X, определить {x1, x2} как два разных «представления» X (например, участки изображения или представления различных временных шагов последовательности), и кодеры {g1, g2}, которые кодируют {x1, x2} соответственно. Цель состоит в том, чтобы найти сопоставления кодировщиков, которые максимизируют взаимную информацию MI между выходами. Интуиция модели заключается в том, что глобальный контекст белка определяет его функцию, которая влияет на каждый локальный участок последовательности / структуры. Максимизируя взаимную информацию между глобальным и локальным контекстом, модель «вынуждена» изучать аспекты общей функции белка, которые связаны с локальной последовательностью / структурой. Этот метод превосходит по точности и количеству параметров, показывая, что он является наиболее «квалифицированным» представлением белков [26]. Оранжевые звезды обозначают контрастную модель, а синие кресты обозначают другие ранее обсуждавшиеся методы ([26], рис. 1).

10. Миграция ячеек

Обученные агенты могут превзойти человеческий уровень в нескольких играх Atari. Если это так, почему бы не обучить модель предсказанию движения клетки? Клеточные движения рассматриваются как результат производного и контролируемого поведения, регулируемого межклеточными или внутриклеточными сигналами. Моделирование клеточных взаимодействий, таких как совместное притяжение и контактное торможение передвижения, важно для понимания коллективной миграции клеток. Коллективная миграция клеток - это скоординированное движение группы клеток, обычно наблюдаемое, например, во время эмбрионального развития и заживления ран. Предсказать такое биофизическое поведение с помощью моделей искусственного интеллекта стало как никогда близко. Однако, хотя регуляторные сети могут быть определены на клеточном, групповом, тканевом или даже эмбриональном уровнях, в это время моделируются только движение отдельных клеток (агент-лидер) и движение ее соседей (агент-последователь). Такое чувство, что я описываю здесь игру… :-)

Главный вопрос в этой игре: как будут двигаться следующие агенты? По каким траекториям и паттернам можно смоделировать их движение к коллективной миграции клеток? Ответ варьируется от изучения их движения с помощью отслеживания компьютерного зрения (однако здесь есть огромные проблемы, от дорогостоящих экспериментов до дискретного пространства) до применения динамических уравнений, подобных старомодному (но хорошему или, по крайней мере, наиболее вероятно имитирующему биологическое поведение хорошо) - диффузия [29]. Чтобы полностью понять принципы изучения политики, следите за обновлениями.

Глубокое обучение с подкреплением помогает справиться с многомерными входными данными, поскольку оно оптимизирует путь миграции клеток в значительных временных и пространственных интервалах с глобальной точки зрения. Более того, он решает проблему локальной оптимизации, с которой сталкивается традиционное моделирование на основе правил и агентов, использующее жадные алгоритмы. Основная проблема здесь - как собирать наблюдения. Я имею в виду, как лучше всего создать структуру агентного моделирования для создания платформы моделирования коллективной миграции клеток с использованием трехмерных изображений покадровой микроскопии [28]? Не думайте об этом слишком много, потому что большинство сетей основаны на изображениях, обычно требуют много времени и требуют больших вычислительных ресурсов. Кроме того, конечное количество выходных данных не может генерировать бесконечное непрерывное представление для направления миграции.

Глубокий детерминированный градиент политики DDPG может изучать универсальные политики как для лидерских, так и для последовательных ячеек, используя низкоразмерные наблюдения с биологическими параметрами и применяя обучение с подкреплением [29]. Таким образом, были обучены две сети: критик и актер. Актор-сеть имеет три скрытых слоя с 64, 128 и 64 нейронами и выходной слой с одним нейроном. Критическая сеть импортирует в качестве входных данных положение, направление градиента концентрации и значение действия из выходного слоя сети-актора и находит Q-value (оптимальное значение-действие) через другую сеть с аналогичной архитектурой. Затем диффузионная модель описывает поле концентрации в среде моделирования, собранное вместе с динамическим движением частицы. По мере движения агентов они действуют как несколько движущихся источников хемоаттрактантов, влияющих на распределение поля концентрации, которое определяет действие агентов. Затем взаимодействие между движением частицы и пространством концентрации требует, чтобы среда моделирования решала уравнение диффузии итеративно из-за новых местоположений агента [29].

Закрытие

Прогресс в методах исследования, относящихся к молекулярной биологии, невероятно впечатляет, даже с учетом того факта, что в течение 2020 года мы были заперты дома на длительный период времени (чтобы избежать коронавируса). Однако использование потенциала нейронных сетей для решения этих жизненно важных задач побудило сообщество специалистов по науке о данных «ответить огнем», серьезно работая круглосуточно и без выходных в этих захватывающих дух инновационных областях, которые напрямую влияют на нашу жизнь. Возможно, паника, вызванная чрезвычайной ситуацией в стране из-за эпидемии, была освежающим сигналом для пробуждения, заставившим нас серьезно изучить новаторские варианты объединения методов биологии и машинного обучения в один подход?

Еще одна мысль, о которой стоит упомянуть, - это источник успешных моделей NN. Пока что видение и сообщества НЛП разработали большую часть архитектуры, обсуждаемой здесь. Таким образом, большая часть моего обходного пути заключалась в исследовании шаблонов, вдохновленных этими приложениями (зрение и НЛП - это приложения, а не чистая математика). Однако это поднимает вопрос, появится ли новая архитектурная модель в сообществах биоинформатики / биотехнологии / биомедицины / биологии / генетики (которые, вероятно, окажутся плавающими в пуле молекул)? Хотя впечатляющие работы были получены благодаря имитации поведения природы, приведет ли подобное вдохновение к инновациям для следующего поколения архитектуры машинного обучения?

использованная литература

  1. Лакшман, Сундарам и др. «DeepBipolar: определение геномных мутаций для биполярного расстройства с помощью глубокого обучения». Мутация человека 38.9 (2017): 1217–1224.
  2. Раймонди, Даниэле и др. «Интерпретируемая несложная структура машинного обучения для надежной in-silico диагностики пациентов с болезнью Крона на основе экзома». NAR Genomics and Bioinformatics 2.1 (2020): lqaa011.
  3. Лопес-Гарсия, Гильермо и др. «Передача обучения с помощью сверточных нейронных сетей для прогнозирования выживаемости при раке с использованием данных об экспрессии генов». PloS one 15.3 (2020 г.): e0230536.
  4. Алипанахи, Бабак и др. «Прогнозирование специфичности последовательностей ДНК- и РНК-связывающих белков с помощью глубокого обучения». Природная биотехнология 33,8 (2015): 831–838.
  5. Грённинг, Александр Гулливер Бьёрнхольт и др. «DeepCLIP: прогнозирование влияния мутаций на связывание белок-РНК с помощью глубокого обучения». Исследование нуклеиновых кислот 48.13 (2020): 7099–7118.
  6. Ку, Питер К. и др. «Анализ глобальной важности: метод количественной оценки важности геномных функций в глубоких нейронных сетях». bioRxiv (2020 г.).
  7. Фиораванти, Диего и др. «Филогенетические сверточные нейронные сети в метагеномике». Биоинформатика BMC 19,2 (2018): 49.
  8. Бояр, Даниэль и др. «SweetOrigins: извлечение эволюционной информации из гликанов». bioRxiv (2020 г.).
  9. Zou, Zhengting, et al. «Глубокие остаточные нейронные сети разрешают квартетную молекулярную филогению». Молекулярная биология и эволюция 37,5 (2020): 1495–1507.
  10. Чуай, Гохуэй и др. «DeepCRISPR: оптимизированный дизайн РНК руководства CRISPR с помощью глубокого обучения». Genome biology 19.1 (2018): 80. Оптимизированный дизайн РНК руководства CRISPR для двух высокоточных вариантов Cas9 с помощью глубокого обучения.
  11. Ван, Даци и др. «Оптимизированный дизайн управляющей РНК CRISPR для двух вариантов Cas9 с высокой точностью с помощью глубокого обучения». Nature communications 10.1 (2019): 1–14.
  12. Чжан Ю и др. «DL-CRISPR: метод глубокого обучения для прогнозирования нецелевой активности в CRISPR / Cas9 с расширением данных». IEEE Access 8 (2020): 76610–76617.
  13. Чжоу, Цзянь и Ольга Г. Троянская. «Прогнозирование эффектов некодирующих вариантов с помощью модели последовательности, основанной на глубоком обучении». Природные методы 12.10 (2015): 931–934.
  14. Куанг, Даниэль и Сяохуэй Се. «DanQ: гибридная сверточная и рекуррентная глубокая нейронная сеть для количественной оценки функции последовательностей ДНК». Исследование нуклеиновых кислот 44.11 (2016): e107-e107.
  15. Ли, Цзявэй и др. «DeepATT: гибридная нейронная сеть внимания категорий для определения функциональных эффектов последовательностей ДНК». Брифинги по биоинформатике (2020).
  16. Виг, Джесси и др. «Бертология встречается с биологией: интерпретация внимания в моделях белкового языка». Препринт arXiv arXiv: 2006.15222 (2020).
  17. Боджар, Дэниел, Диого М. Камачо и Джеймс Дж. Коллинз. «Использование обработки естественного языка для изучения грамматики гликанов». bioRxiv (2020 г.).
  18. Эльнаггар, Ахмед и др. «ProtTrans: к взлому кода языка жизни с помощью самостоятельного глубокого обучения и высокопроизводительных вычислений». Препринт arXiv arXiv: 2007.06225 (2020).
  19. Глигориевич, Владимир и др. «Прогнозирование функций на основе структуры с использованием сверточных графовых сетей». bioRxiv (2020): 786236.
  20. Ван, Сен и др. «Использование нейронных сетей deep maxout для повышения точности предсказания функций из сетей взаимодействия белков». PloS one 14.7 (2019 г.): e0209958.
  21. Баро, Встреча и др. «NetQuilt: глубокое сетевое прогнозирование функции белков на основе множественных видов с использованием гомологически обоснованного сетевого сходства». bioRxiv (2020 г.).
  22. Магар, Ришикеш, Пракарш Ядав и Амир Барати Фаримани. «Потенциальные нейтрализующие антитела, обнаруженные для нового вируса короны с использованием машинного обучения». Препринт arXiv arXiv: 2003.08447 (2020).
  23. Ван, Юян, Пракарш Ядав и Ришикеш Магар. «Биоинформированная генерация белковой последовательности для предсказания мультиклассовых вирусных мутаций». bioRxiv (2020 г.).
  24. Берман, Даниэль С. и др. «MutaGAN: структура Seq2seq GAN для прогнозирования мутаций в развивающихся белковых популяциях». Препринт arXiv arXiv: 2008.11790 (2020).
  25. Беплер, Тристан и Бонни Бергер. «Изучение встраивания белковых последовательностей с использованием информации из структуры». Препринт arXiv arXiv: 1902.08661 (2019).
  26. Лу, Эми X. и др. «Самоконтролируемое сравнительное изучение представлений белков путем взаимной максимизации информации». bioRxiv (2020 г.).
  27. Ван, Зи и др. «Глубокое обучение с подкреплением движения клеток на ранней стадии эмбриогенеза C. elegans». Биоинформатика 34,18 (2018): 3169–3177.
  28. Хоу, Ханьсю и др. «Использование глубокого обучения с подкреплением для ускорения коллективной миграции клеток». Биоинформатика BMC 20,18 (2019): 1–10.
  29. Чжан, Ихао и др. «Модель глубокого обучения с подкреплением, основанная на детерминированном градиенте политики для коллективной миграции клеток нервного гребня». Препринт arXiv arXiv: 2007.03190 (2020).
  30. Т. Н. Кипф и М. Веллинг, «Полууправляемая классификация с графовыми сверточными сетями», сентябрь 2016 г.