Открытие α-спирали и β-листа, основных структурных особенностей белков

Раннее исследование

Хотя исследования в области биохимии белков проводились с 1800-х годов, серьезные попытки понять структуру белков начались только в начале двадцатого века. Один из первых крупных прорывов произошел, когда Лайнус Полинг и его команда из Калифорнийского технологического института опубликовали серию статей, начиная с 1951 года, в которых выдвигалась гипотеза о существовании альфа-спиралей и бета-листов. Это были структурные модели, которые Полинг определил как оптимальные из-за низкоэнергетических позиций, которые занимают водородные связи в расположении (1). Он оказался прав, и последующая работа в последующие десятилетия показала, что действительно тысячи белков содержат структуры альфа-спирали и бета-листа. Однако, в отличие от ДНК, открытие этих паттернов не привело к развитию какого-либо универсального понимания или правил того, как укладываются белки. Хотя многие белки содержат альфа-спирали и бета-листы, многие другие белки их не содержат. Более того, со многими белками, содержащими сотни или даже тысячи оснований, точное структурное положение и вклад любой данной альфа-спирали или бета-листа оставались неопределенными. Таким образом, оставалось неизвестным, как будет складываться данная аминокислотная последовательность и какую окончательную структуру она примет, даже если было известно, что она содержит спираль или лист. Инструменты моделирования, доступные Полингу, были его разумом и его бумажными моделями, поэтому более глубокое исследование того, как складываются различные белки, каждый из которых имеет миллионы возможных перестановок торсионных углов пар оснований и конфигураций боковых цепей, оставалось за рамками исследований.

Вычислительные подходы

Хотя общая теоретическая основа для предсказания структуры на основе пептидных последовательностей оставалась недостижимой целью, в методах наблюдения был достигнут прогресс. Результаты, полученные с помощью рентгеновской дифракции еще в 1930-х годах, выявили глобулярную форму белков (2), но эти данные имели относительно низкое разрешение, и потребуются дальнейшие инновации в технологии, прежде чем можно будет достичь точности на атомном уровне. В конечном итоге это было достигнуто, и в 1950-х годах группа Джона Кендрю из Кембриджского университета провела более подробные исследования структуры белка на основе рентгеновских лучей. Команда Кендрю опубликовала в 1950-х годах серию статей о структуре миоглобина, анализируемой при все более высоких разрешениях (3). Разрешение увеличилось с 6 ангстрем до 2, а затем и до 1,4. Однако каждое увеличение разрешения соответствует существенному увеличению объема генерируемых данных. Для анализа 6 ангстрем требуется 400 отражений на образец, но это число быстро увеличивается до 25 000 на образец при разрешении 1,4 ангстрема. Поскольку команда исследовала порядка десятков образцов, общее количество вычислений исчислялось сотнями тысяч. Это было за пределами возможностей ручного расчета, и даже с помощью табулирующих машин, таких как машина Холлерита, для выполнения такого количества вычислений потребуются годы труда. Однако команда Кендрю смогла завершить анализ благодаря компьютеру EDSAC, который не только выполнял вычисления, но и мог запускать базовые алгоритмы для автоматизации части задачи. EDSAC удалось сократить рабочий день всего до нескольких часов. Это ни в коем случае не был симулятор, и он был далек от последующих машин, которые станут доступны ученым, но это был первый шаг в моделировании белков на основе моделирования. Симуляции моделируют события реального мира на компьютерах, и огромная часть симуляций и моделирования — это расчеты. Быстрые автоматизированные вычисления являются необходимым условием для моделирования любой системы на компьютере, и машина EDSAC сделала именно это. Он продемонстрировал ценность быстрых алгоритмических вычислений в науке о белках, и, учитывая объем данных, с которыми работала команда Кендрю, EDSAC оказался незаменимым. К 1962 году группа Кендрю составила карту полной трехмерной структуры миоглобина на атомном уровне, и, таким образом, миоглобин стал первым белком, трехмерную структуру которого можно было полностью смоделировать.

Создание моделей белков с использованием объединенных усилий вычислений и рентгеновской дифракции оказалось возможным, но в контексте более крупной проблемы сворачивания белков становилось все более очевидным, что это не будет устойчивым решением. На проведение рентгеноструктурных исследований и анализ сотен тысяч расчетов ушли годы усилий. Даже с помощью компьютера EDSAC, который автоматизировал и выполнял большинство расчетов, сам процесс дифракции рентгеновских лучей был невероятно утомительным, дорогим и трудоемким. Выполнение рентгеновской дифракции для картирования структуры каждого из миллионов белков не является приемлемым вариантом. Решение для этого придет в виде компьютерного моделирования молекулярной динамики. Молекулярная динамика относится к процессу наблюдения за движениями моделируемой молекулярной системы, которая развивается на основе физических законов. Научные исследования с использованием такого моделирования появились в 1950-х годах для изучения поведения жидкостей (4). В этих симуляциях моделировались простые сферические шары, действующие на основе физических законов движения, притяжения и отталкивания. В 1974 году была создана первая модель жидкой воды, а в 1977 году Эндрю Маккаммон и его команда из Гарварда смоделировали первый белок с помощью компьютерного моделирования (5). Моделирование позволяет обычным нематериальным физическим системам, таким как процессы сворачивания белков на атомном уровне, протекать и наблюдаться в реальном времени в моделируемой среде. Теоретически, если моделирование является достаточно точным представлением природы и физического процесса, лежащего в основе конкретного события, результат моделирования должен отражать результаты, которые наблюдались бы в реальном мире, если бы происходил тот же самый физический процесс. Имитационное моделирование имело значительный успех, и хотя оно не было совершенным, оно выявило огромное количество знаний о том, как ведут себя биологические системы на молекулярном уровне. Используя мощные компьютеры, эти ранние модели могли аппроксимировать физический мир внутри компьютерного процессора, выполняя необходимые для этого тысячи физических вычислений в секунду.

Моделирование на основе молекулярной динамики, которое воспроизводит физический мир на атомном уровне, было глубоким нововведением в технологии моделирования, но оно было чрезвычайно дорогостоящим в вычислительном отношении, и даже со все более мощными компьютерами ученые начали приближаться к пределу своих возможностей моделирования белков. Моделирование поведения атомов с помощью волновых уравнений и квантовой механики, которые представляют наше лучшее понимание поведения Вселенной на атомном уровне, было почти невозможно из-за того, насколько интенсивным в вычислительном отношении был бы процесс для всего лишь одного атома. Однако даже с упрощенными физическими схемами, которые моделируют атомы с более простыми ньютоновскими уравнениями и связями в виде простых пружин, расчеты оказались огромной вычислительной нагрузкой (6). Вычислительная сложность все более крупных систем возрастает экспоненциально. Таким образом, моделирование белка с вдвое большим количеством оснований не в два раза сложнее; это на много порядков сложнее. С каждым дополнительным атомом, добавляющим сотни или даже тысячи дополнительных вычислений в секунду, проблема оказалась неразрешимой даже для самых мощных компьютеров.

Решение пришло в виде статистической механики, которая привела к ряду нововведений в том, как ученые подходили к моделированию. Вместо того, чтобы пытаться смоделировать физическую Вселенную на компьютере, ученые начали разрабатывать упрощенные методы, основанные на статистике, для выполнения основных расчетов, которые определяли эволюцию каждой симуляции. Они часто включали упрощения физических систем, которые абстрагировались от того, как система на самом деле работает, в пользу упрощенной модели, которая могла бы служить приемлемым приближением. Например, вместо того, чтобы моделировать торсионные углы между каждой парой оснований как непрерывные значения, исследователи начали моделировать их как дискретные значения, представляющие только наиболее благоприятные состояния, которые может занимать система (7). Хотя это отличалось от того, как, вероятно, вела себя реальная физическая система, оно служило подходящим приближением. Другие подходы включали замену молекулярного моделирования простыми уравнениями энергии, которые затем можно было минимизировать с помощью градиентного спуска — стохастического процесса, который позволяет приблизиться к оптимальному состоянию. Это значительно снизило вычислительную сложность, поскольку тысячи атомов, представляющих жидкость, можно было заменить простым набором уравнений жидкости. Эти инновации в подходах к моделированию позволили моделировать все более сложные системы даже при ограничении доступной вычислительной мощности.

Современная протеомика

Самая последняя серия инноваций в решении проблемы сворачивания белков включает в себя те, которые используют преимущества машинного обучения и искусственного интеллекта. Эти технологии значительно улучшают наши возможности моделирования систем, потому что они позволяют распознавать сложные закономерности в различных результатах фолдинга белков. Это позволяет системе распознавать отношения между различными аминокислотными последовательностями и конечной трехмерной структурой, которую они создают. Точно так же, как статистическая механика служила кратчайшим путем к молекулярной динамике, машинное обучение обеспечивает еще один кратчайший путь: вместо моделирования физики или выполнения статистической оптимизации моделируемой системы мы можем сразу распознавать определенные последовательности, указывающие на определенные структурные конформации (8). . Обычно это достигается с помощью процесса поиска гомологии: белки, структура которых уже была картирована, анализируются, чтобы найти сходство с новым белком, и их структурная информация используется в сочетании с другими методами моделирования для разработки окончательного картирования нового белка. В некоторых случаях также включается дополнительная информация из ДНК для дальнейшего определения взаимосвязей между различными участками пептидной последовательности. Добавление машинного обучения, особенно глубокого обучения, изменило область протеомики. В 2020 году команда Google DeepMind опубликовала статью об AlphaFold, системе, основанной на глубоком обучении, для предсказания структуры белка (9). В этой системе использовался тип глубокого обучения, называемый обучением с подкреплением, для изучения закономерностей между последовательностями пептидов и трехмерными структурами ранее решенных белков. Он получил самый высокий балл в международном конкурсе моделирования белков, известном как CASP13. Соревнование включало в себя определение расстояний между парами оснований и торсионных углов для 43 различных белков, из которых команда DeepMind успешно смоделировала 24. Это был самый высокий результат в истории конкурса, и он почти вдвое лучше, чем второй по производительности. команда, получившая 14 баллов из 42. AlphaFold — это историческая веха в решении проблемы сворачивания белков, демонстрирующая возможности машинного обучения и искусственного интеллекта в улучшении положения в этой области. Машинное обучение основано на десятилетиях прогресса, достигнутого в улучшении технологий моделирования, доступных исследователям.

ИИ и машинное обучение представляют собой последнюю серию инноваций в области технологий моделирования и продемонстрировали невероятный потенциал для дальнейшего развития отрасли. Тем не менее, несколько других источников также являются потенциальными претендентами на предоставление следующего набора инструментов, которые будут способствовать совершенствованию моделирования. К ним относятся квантовые вычисления, целью которых является создание компьютеров, способных использовать принципы квантовой механики для запуска программ. Это может позволить ранее неразрешимые проблемы молекулярной динамики стать решаемыми, что позволит включить в моделирование подходы, основанные на физике более низкого уровня, такие как квантовая механика. Это может привести к улучшениям по сравнению с существующими моделями, которые, как объяснялось ранее, представляют собой существенное упрощение и приближение к лежащей в основе физике. Аппаратные инновации в графических процессорах (GPU) могут увеличить мощность алгоритмов глубокого обучения, позволяя изучать еще больше шаблонов из существующих данных. Наконец, новые открытия в области алгоритмов могут позволить писать еще более эффективные программы, еще больше увеличивая наши возможности для запуска более мощных симуляций на существующем оборудовании.

Сводка

История сворачивания белков — это история технологии компьютерного моделирования. Ранние открытия в области протеомики положили начало гонке по разработке методов определения трехмерной структуры белков, но путь к этому оказался гораздо более трудным, чем предполагали ученые. Из-за уникальной структуры, которую предполагает каждая пептидная последовательность, проблему фолдинга белка нельзя решить с помощью простых эвристик, таких как проблема ДНК. Оказывается, несмотря на некоторые общие субструктуры, такие как альфа-спирали и бета-листы, каждый белок в конечном итоге представляет собой уникальную структуру. Для определения этой трехмерной структуры первоначально потребовались годы лабораторных рентгеноструктурных исследований и сотни тысяч сложных расчетов. Однако даже с помощью компьютеров для этих вычислений, которые сами по себе оказались незаменимыми, использование методов наблюдения для определения структуры миллионов известных белков было непреодолимой задачей. Необходимость предсказать трехмерную структуру белка, зная только последовательность пептида, заставила ученых обратиться к технологии моделирования. За последние семь десятилетий эта технология была усовершенствована с помощью различных аппаратных, программных и алгоритмических инноваций. Эти инновации включают молекулярную динамику, статистическую механику и машинное обучение. Каждая инновация позволила технологии моделирования стать более мощной и позволить лучше прогнозировать структуру более сложных белков. По состоянию на 2020 год эти разработки привели к созданию AlphaFold, которая в настоящее время является самой мощной системой предсказания структуры белка в истории. Однако, несмотря на достигнутые успехи, предстоит еще много работы. Мы можем рассчитывать на будущие инновации в таких областях, как квантовые вычисления, аппаратная инженерия и анализ алгоритмов, которые предоставят следующий набор инструментов для дальнейшего развития технологии компьютерного моделирования и приблизит нас на один шаг к решению проблемы сворачивания белков.

Чтобы связаться или получить дополнительную информацию, свяжитесь с нами через «LinkedIn»

ССЫЛКИ

1: Полинг

2: Марц

  • «https://www.pnas.org/content/100/20/11207»
  • Массачусетский университет: Хронология химии белков

3: чадаревский

  • «http://www.umass.edu/microbio/chime/pe_beta/pe/protexpl/histprot.htm»
  • Джон Кендрю и миоглобин: определение структуры белка в 1950-х годах.

4: Баттимелли

  • «https://onlinelibrary.wiley.com/doi/pdf/10.1002/pro.3417»
  • Берни Алдер и первые времена молекулярного моделирования

5: Маккаммон

  • «https://link.springer.com/article/10.1140/epjh/e2018-90027-5»
  • Динамика свернутых белков

6: Бердж

  • «https://www.nature.com/articles/267585a0»
  • Основы вычислительной и системной биологии (лекции 12 и 13)

7: Мендес

  • «https://ocw.mit.edu/courses/biology/7-91j-foundations-of-computational-and-systems-biology-spring-2014/video-lectures/»
  • Улучшенное моделирование боковых цепей в белках с помощью методов на основе ротамеров: гибкая модель ротамеров

8: Ченц

  • «https://onlinelibrary.wiley.com/doi/full/10.1002/%28SICI%291097-0134%2819991201%2937%3A4%3C530%3A%3AAID-PROT4%3E3.0.CO%3B2-H»
  • Методы машинного обучения для предсказания структуры белка

9: старший

  • «http://calla.rnet.missouri.edu/cheng/ieee_review.pdf»
  • Улучшенное предсказание структуры белка с использованием потенциалов глубокого обучения.

История проблемы свертывания белка: семидесятилетние симбиотические отношения между…

  • «https://www.nature.com/articles/s41586-019-1923-7»
  • Любой, кто изучал биологию в средней школе, знает об увлекательной гонке за открытием двойной спирали Уотсоном и Криком: захватывающая и драматическая история с Нобелевскими премиями и предательствами, которая привела к тому, что многие генетики считают открытием века. Она раскрыла физическую структуру ДНК на молекулярном уровне, знания, которые послужили основой для всех будущих работ в области генетики и генной инженерии. Однако немногие знают о гораздо более длительном и трудном путешествии, которое длилось почти сто лет, чтобы открыть такое же понимание для другого большого набора макромолекул, которые делают жизнь возможной: белков. Белки — рабочие лошадки клетки. Это наномашины, которые физически выполняют все биологические функции, и они являются объектами, для производства которых существует генетический код. Однако, в отличие от ДНК, научный путь к выяснению того, как именно работают белки, оказался гораздо более сложным, чем предполагалось, и был далеко не линейным. Многолетние попытки выяснить, как цепочки аминокислот складываются в белки, известные как проблема сворачивания белков, поставили в тупик поколения исследователей со всего мира. Тем не менее был достигнут огромный прогресс, и хотя мы все еще очень далеки от решения этой проблемы, работа последних семи десятилетий привела ко многим важным вехам и позволила нам развить еще большее понимание лежащего в основе молекулярного механизма. Тщательное изучение истории науки о сворачивании белков — протеомики — показывает, что проблема принципиально отличается от решения структуры ДНК. В отличие от ДНК, которая имеет однородную структуру и поведение во всех вариантах генетического кода и даже во всех известных формах жизни, физическая структура каждого белка уникальна. Существует двадцать различных типов аминокислотных оснований, и каждый белок может включать от нескольких десятков до нескольких тысяч оснований. Окончательная трехмерная структура каждого белка, известная как третичная структура, зависит от точной конфигурации этой цепочки аминокислот, а также от окружающей среды. Таким образом, в настоящее время нет четких правил для понимания того, как будет выглядеть структура данного белка, просто исходя из его последовательности, и единственный способ определить структуру данной последовательности — это наблюдать ее на реальном образце или моделировать. это на комп. Учитывая, что существуют миллионы различных белков и что для экспериментального наблюдения за каждым из них могут потребоваться годы наблюдательной работы, моделирование является единственным обобщающим и масштабируемым решением. Поэтому неудивительно, что история прогресса в протеомике идет параллельно с историей прогресса в информатике. В частности, прогресс в решении проблемы сворачивания белков напрямую зависит от достижений в технологии компьютерного моделирования. Точная форма технологии моделирования варьируется, но включает в себя различные аппаратные, программные и алгоритмические инновации. В этой статье мы проследим ход решения проблемы фолдинга белков, начиная с самых первых дней исследований протеомики. Мы отвечаем, как использовались различные инновации в технологии моделирования и почему они были необходимым фактором для дальнейшего прогресса в этой области. В заключение мы рассмотрим некоторые из самых последних достижений в науке о белках и то, как они основываются на десятилетиях уже проделанной работы.