Модели машинного обучения слишком долго распространяются на болезни бедных

Калеб К. Кибет и Джеффри Х. Сиво

История анализа данных восходит к Древнему Египту, где периодическая перепись населения при строительстве пирамид породила статистику. Перенесемся в прошлый век: изобретение цифровых технологий и последующий экспоненциальный рост вычислительной мощности ускорили темпы, с которыми мы можем извлекать информацию из данных. Кроме того, быстрый рост как данных, так и скорости вычислений позволил разработать более сложные математические, статистические методы, методы машинного обучения и искусственного интеллекта. Как инструмент, наука о данных дает нам возможность получать информацию, которая может привести к прогрессу, который изменит жизнь. Таким образом, непропорциональное использование передовых инструментов обработки данных во всем мире может привести к неравенству в прогрессе и доступе к медицинским вмешательствам.

В этой статье мы исследуем вопрос: как быстро алгоритмы машинного обучения и искусственного интеллекта применяются при малярии — заболевании, которое в первую очередь поражает бедных, — по сравнению с заболеванием, которое преимущественно поражает людей в богатых странах: раком? Очень медленно. По нашим оценкам, требуется в среднем 11 лет, чтобы метод анализа данных в исследованиях рака распространился на исследования малярии (таблица 1). Мы публикуем эту статью на Medium вместо биомедицинского журнала или сервера препринтов, чтобы охватить более широкое сообщество специалистов по данным, в том числе тех, у кого нет биомедицинского образования, и добиться сотрудничества в расширении распространения знаний и технологий между областями. Мы предоставляем код в нашем репозитории MachineLearning4Malaria на Github, чтобы поддержать основные утверждения в этой статье, получить открытый критический обзор и запросить отзывы для будущих рецензируемых исследований в этой области.

Чтобы оценить распространение знаний о различных алгоритмах машинного обучения при раке и малярии, мы запросили общедоступный репозиторий биомедицинской литературы, размещенный в Национальной медицинской библиотеке США (PubMed), чтобы выявить все документы, в которых упоминаются стандартные алгоритмы машинного обучения при представлении исследований малярии. или рак в своих рефератах. Сводка результатов представлена ​​в таблице 1. Для сравнения мы также изучили, как основные биомедицинские инновации, такие как секвенирование ДНК, распространяются на рак и малярию (таблица 2).

Похоже, что внедрение машинного обучения вообще в исследования малярии изначально заняло самый длительный период (18 лет) по сравнению с исследованиями рака. K-ближайший сосед (KNN) также занял такое же количество времени. Примечательно, что сверточные нейронные сети (CNN), появившиеся в последнее десятилетие, показывают лишь 5-летнее отставание от рака до малярии. Ключевую роль в этом, возможно, сыграли растущие сегодня темпы потоков информации, сопровождаемые открытым обменом данными и кодом.

Простые статистические подходы, такие как линейная регрессия, являются наиболее часто используемыми методами анализа данных как по раку, так и по малярии. Методы анализа первичных данных, такие как линейная и логистическая регрессия, хорошо применяются африканскими исследователями по сравнению с передовыми инструментами. Методы линейной и логистической регрессии широко используются для выявления взаимосвязей между несколькими факторами для категориальных и непрерывных переменных соответственно. Однако использование этих подходов сокращается (рис. 1, дополнительные рисунки MachineLearning4Malaria). При малярии пик использования линейной регрессии пришелся на 2015 год, и сейчас он сокращается по мере того, как новые подходы к машинному обучению все больше распространяются в этой области.

Технологии машинного обучения набирают популярность в биомедицинских исследованиях благодаря увеличению объема биологических данных, генерируемых и усугубляемых появлением технологий высокопроизводительного секвенирования и микрочипов. Машинное обучение позволяет ученым извлекать больше пользы из сложных данных и позволяет комбинировать широкий массив данных, особенно со зрелостью алгоритмов глубокого обучения и обучения без учителя. Использование некоторых алгоритмов машинного обучения, которые использовались в течение длительного времени, сокращается. Например, использование машин опорных векторов и случайных лесов в публикациях о малярии достигло своего пика в 2015 году и с тех пор сокращается. Нейронные сети набирают популярность.

В целом ожидается, что распространение других биомедицинских технологий от хорошо изученных болезней, таких как рак, к забытым заболеваниям будет медленным. Чтобы оценить это, мы также провели анализ публикаций, посвященных различным биомедицинским технологиям при раке и малярии (табл. 2). В среднем с момента первого применения этих технологий для борьбы с малярией проходит 7-летняя задержка по сравнению с раком. Секвенированию по Сэнгеру, одному из первых методов секвенирования ДНК, понадобилось 17 лет, чтобы быть опубликованным в публикации по малярии, по сравнению с его первым применением в исследованиях рака. Однако мы также обнаружили, что несколько широко применяемых технологий, имеющих отношение к выявлению инфекционных заболеваний, появляются сначала при малярии, а затем при раке. Например, твердофазный иммуноферментный анализ (ИФА), метод обнаружения антигенов с использованием антител, применялся при малярии за 2 года до его появления в публикации о раке. Технология микрочипов отставала в исследованиях малярии от рака всего на 4 года, в то время как новейшей технологии секвенирования (нанопоровое секвенирование) потребовалось 5 лет, чтобы появиться в публикации по малярии.

Малярия остается тягостным заболеванием, поражающим африканский континент. Это болезнь, которая в первую очередь поражает бедных. В 2017 г. около 92% из 219 миллионов случаев малярии было зарегистрировано в Африке (ВОЗ, Всемирный отчет о малярии, 2018 г.). В этой статье мы исследуем распространение технологий, в частности машинного обучения, в исследованиях малярии, взяв за основу рак. Рак считается болезнью богатых: 36% из 18 миллионов новых случаев в 2018 году зарегистрировано в Европе.

Как болезнь бедных, малярия получает значительно меньше финансирования, чем исследования рака. ВОЗ отмечает, что для достижения целей ЦУР, для снижения заболеваемости малярией на 40% к 2020 году, нам необходимо около 4,4 млрд долларов США против 3,1 млрд долларов, вложенных в 2017 году, дефицит в 1,3 млрд долларов. Кроме того, большинство исследователей малярии родом из Африки, континента, который все еще испытывает трудности с финансированием, доступом к технологиям и междисциплинарным сотрудничеством. Без междисциплинарного сотрудничества внедрение методов из области компьютерных наук занимает больше времени. Большинство исследователей в Африке по-прежнему применяют традиционные технологии для исследования малярии.

Генерация данных стоит дорого. Африканским исследователям не хватает человеческого, финансового и технологического опыта для получения данных. В сочетании с отсутствием сотрудничества это способствует медленному распространению технологий машинного обучения в исследованиях малярии. Как болезнь, отягощающая Африканский континент, Африка должна играть ведущую роль в поиске решений стоящих перед ней проблем.

Мы также изучили вопрос: кто инициирует внедрение технологий машинного обучения в исследованиях малярии? Для этого исследуем аффилиацию первого автора. Давайте в качестве примера возьмем документы, в которых упоминается машинное обучение и малярия. Только восемь из 73 газет из африканских стран, большинство из них связаны с учреждениями в США, Индии и Австралии. Африканские исследователи не продвигают внедрение алгоритмов машинного обучения в исследованиях малярии: это необходимо изменить.

Чтобы расширить использование алгоритмов машинного обучения в исследованиях малярии, эти алгоритмы и технологии должны быть быстро приняты и разработаны исследователями, проводящими исследования малярии: африканскими исследователями. Исследователи используют то, что есть в их наборе инструментов, для решения интересующих вопросов, и большинство африканских исследователей полагаются на молекулярные методы. Поэтому нам необходимо наращивать потенциал машинного обучения для африканских исследователей, особенно для молодежи; через хакатоны, семинары и изменение учебных программ. Во-вторых, нам необходимо поощрять междисциплинарное сотрудничество в Африке и других частях мира, перестать работать изолированно и сделать биомедицинские исследования привлекательными для специалистов по информатике и данным.

Использование открытой науки в биомедицинских исследованиях является одним из подходов к активизации сотрудничества между биомедицинскими исследователями и учеными-компьютерщиками. В ходе открытых научных семинаров, практикумов и хакатона в Найроби, Кения, которые предоставили местным исследователям инструменты открытой науки, мы наблюдали потребность в обучении навыкам работы с данными и тому, как применять их в биомедицинских исследованиях. В апреле этого года на мероприятии Deep Learning Indaba X в Дурбане, Южная Африка, мы поставили перед учеными задачу разработать модели глубокого обучения для классификации зоонозных и незоонозных вирусов на основе последовательностей вирусного генома. В 2016 году мы организовали хакатон DREAM of Malaria Hackathon в лаборатории IBM Research Africa в Йоханнесбурге, Южная Африка, и собрали специалистов по моделированию из разных стран, чтобы оценить полезность наборов геномных данных для прогнозирования возникающей лекарственной устойчивости к артемизинину, ключевому противомалярийному средству. препарат, средство, медикамент. Мы распространяем эти усилия на открытую международную задачу по науке о данных — Malaria DREAM Challenge, — запущенную 30 апреля 2019 года, чтобы предложить вычислительные модели для прогнозирования возникающей лекарственной устойчивости к артемизинину с использованием геномных данных малярийных паразитов. Мы хотели бы сделать особый призыв к участию специалистов по данным в Африке и проведем 3 июня 2019 года местное мероприятие в лаборатории IBM Research Africa в Найроби, Кения, чтобы расширить участие специалистов по данным в Африке. В совокупности эти усилия усиливают интеграцию технологий машинного обучения и искусственного интеллекта в борьбу с болезнями бедных. Необходимо сделать больше. Мы можем сотрудничать только в том случае, если мы и наши сотрудники оснащены открытыми научными инструментами для совместной работы.

Калеб К. Кибет — биоинформатик в Международном центре физиологии и экологии насекомых (ICIPE) в Найроби, Кения. Он также является основателем Open Science Kenya. Твиттер – @Calkibet

Джеффри Х. Сиво — доцент-исследователь Центра исследовательских вычислений и Института глобального здравоохранения Экка, Университет Нотр-Дам, Индиана, США. Твиттер – @gsiwo