Ссылка на базовый документ: https://arxiv.org/abs/2105.08321

Блог написан: Сетху (Я), Рамья (Рамья Б) и Рохан

Автор статьи: Партх Патва, Вишваната Редди, Рохан Сукумаран, Сетураман ТВ, Эптехал Нашнуш, Шешанк Шанкар, Ришемджит Каур, Абхишек Сингх , Рамеш Раскар

Привет! Самая кропотливая задача начинающего исследователя — выявить пробелы в существующей работе. Из фонда PathCheck мы пытались принять участие в конкурсе данных о симптомах COVID 19, организованном Facebook, CMU и UMD. Задача заключалась в том, чтобы оценить процентную долю COVID-19, используя симптомы, о которых сообщают сами, ненавязчивым образом, чтобы ускорить процесс тестирования и карантина, особенно в условиях ограниченных ресурсов. Здесь первым шагом было определение того, «что уже было сделано в этом пространстве», и итеративная импровизация, чтобы решить насущную проблему. В связи с этим мы следовали формату, чтобы определить пробелы или возможную новизну, которые можно было бы внести в текущую исследовательскую работу.

Грубое описание проблемы, которую мы пытались решить:

Быстрое развитие пандемии COVID-19 спровоцировало крупномасштабные усилия по сбору данных на международном уровне для изучения эпидемиологии вируса и формирования политики. Были предприняты различные исследования для прогнозирования распространения, тяжести и уникальных характеристик инфекции COVID-19 с использованием широкого спектра наборов клинических данных, изображений и данных на уровне населения. Несмотря на это, пандемия продолжает бросать вызов системам здравоохранения во всем мире во многих аспектах, включая резкое увеличение спроса на больничные койки и острую нехватку медицинского оборудования. В дополнение к этому, многие медицинские работники сами были инфицированы. Это ограничивает возможность принятия немедленных клинических решений и практического использования ресурсов здравоохранения.

Наиболее проверенный диагностический тест на COVID-19 с использованием полимеразной цепной реакции с обратной транскриптазой (ОТ-ПЦР) уже давно отсутствует в развивающихся странах. Это способствует повышению уровня инфицирования и задержкам в принятии важнейших профилактических мер. Таким образом, эффективный скрининг позволяет быстро и эффективно диагностировать COVID-19 и может снизить нагрузку на системы здравоохранения.

Одним из таких эффективных методов скрининга было использование симптомов, о которых сообщали сами люди, и проверка того, могут ли эти симптомы служить хорошим индикатором для оценки вероятности COVID 19. Например, было показано, что аносмия является самым сильным предиктором наличия заболевания (в конце сентября). и было указано, что модель для выявления заболеваний с использованием предикторов на основе симптомов имеет чувствительность около 65%. С момента появления COVID-19 также был проделан значительный объем работы по математическому моделированию, чтобы понять вспышку в различных ситуациях для разных демографических групп. Однако эти работы в первую очередь ориентированы на популяционный уровень. Кроме того, оценка различных вероятностей перехода для перемещения между отсеками является сложной задачей.

Таким образом, необходимо понимать тенденции в распространении COVID-19, используя результаты самостоятельных опросов о симптомах COVID-19 в качестве альтернативы отчетам о тестировании COVID-19. Это позволяет нам оценивать распространенность заболеваний в сообществе даже в районах с низкими возможностями тестирования на COVID-19. Используя индивидуально сообщаемые данные о симптомах из различных групп населения, мы предсказали вероятный процент населения с положительным результатом на COVID-19.

Поэтому, учитывая важность проблемы, мы попытались решить ее, и это пример обзора литературы / метода, которому мы следовали.

Мы используем следующий метод:

  1. Плюсы (помогает нам извлечь уроки из их сильных сторон)

2. Минусы (помогает нам заранее подготовиться к потенциальным ловушкам и понять некоторые хорошо известные проблемы и ограничения)

3. Будущая работа (это прямая раздача для нас, чтобы начать и изучить новую тему исследования)

Прогнозирование диагноза COVID-19 на основе машинного обучения на основе симптомов — Природа (Ссылка на бумагу)
Плюсы:

  1. Большой высококачественный набор данных для эффективного понимания динамики заболевания. (51831 протестированных человек)
  2. Обучение проводится с использованием непредвзятых признаков.
  3. Большинство предыдущих моделей были основаны на данных госпитализированных пациентов, поэтому они неэффективны при скрининге на SARS-CoV-2 среди населения в целом. Данная работа пытается решить эту задачу.

Минусы:

  1. Предвзятость и отсутствие информации о многих функциях не были эффективно обработаны. Например, для пациентов, помеченных как имевшие контакт с человеком, у которого подтверждено наличие COVID-19, дополнительная информация, такая как продолжительность и место контакта (в помещении/на улице), была недоступна. Предыдущие исследования определили, что некоторые симптомы (такие как отсутствие обоняния и вкуса) очень предсказуемы для инфекции COVID-19, но не были зарегистрированы Министерством здравоохранения Израиля.
  2. Обратите внимание, что обо всех симптомах сообщалось самостоятельно, и отрицательное значение симптома может означать, что о симптоме не сообщалось. Поэтому важно оценивать производительность модели в том случае, если больше значений не сообщается или отсутствует, чем с отрицательными значениями. Авторы упустили это из виду.
  3. Результаты менее информативны, а используемый алгоритм бустинга чувствителен к выбросам, поскольку каждый классификатор обязан исправлять ошибки в предшественниках. Таким образом, метод слишком зависит от выбросов и склонен к переобучению. Другим недостатком является то, что метод почти невозможно масштабировать, потому что правильность каждой оценки основывается на предыдущих предикторах, что затрудняет оптимизацию процедуры.

Направления будущих исследований:

  1. Параллельно с углублением понимания роли различных симптомов в диагностике заболевания в будущие модели могут быть включены дополнительные симптомы.
  2. Авторы могут попробовать использовать модель глубокого обучения и другие интерпретируемые подходы машинного обучения, чтобы понять нелинейность данных.
  3. Оценку пандемии можно рассматривать путем учета данных из других стран, вариантов, прививок и т. д.

Исследование риска смертности от COVID-19 на основе машинного обучения — PLOS (Paper link)
Плюсы:

  1. Учитывались как инвазивные, так и неинвазивные признаки.
  2. Это одна из первых работ, посвященных изучению прогностической способности инвазивных и неинвазивных признаков. Оценка инвазивных биомаркеров дает более прямые и причинно-следственные выводы о нашем физиологическом состоянии. Напротив, неинвазивные признаки содержат более широкую косвенную информацию о теле.
  3. Объяснимые модели машинного обучения использовались для оценки риска смертности от COVID-19.

Минусы:

  1. Средний возраст составляет 62 года, что не учитывает большую часть молодого населения, поэтому анализ может быть недостаточно надежным, чтобы масштабировать его на более молодое население.
  2. Интервал сбора данных в этом исследовании охватывал первую волну пандемии, и медицинские записи были задокументированы в спешке как высокая нагрузка пациентов. Ограниченный медицинский персонал вынудил медицинскую систему уделять приоритетное внимание лечению пациентов. Таким образом, многие пациенты имели неполные медицинские профили и были просеяны перед фазой проверки данных. Упомянутые выше факторы ограничивали размер выборки исследования.
  3. В больнице Массих Данешвари было больше тяжелых и умерших пациентов, поскольку это был центр первичной медицинской помощи для COVID-19. Таким образом, показатели тяжести и смертности в этом исследовании не отражают популяционные уровни этих переменных, что может добавить в исследование искажающие эффекты.

Направления будущих исследований:

  1. В анализе не учитываются различия прогностических признаков в отношении различных демографических данных и вариантов. Для дальнейшей оценки наших результатов можно использовать более обширные и более разнообразные исследуемые группы.
  2. Будущие исследователи смогут сравнить прогностическую способность признаков изображения с лабораторными и неинвазивными признаками.
  3. Будущие исследования могут быть сосредоточены на отдельных группах сопутствующих заболеваний (например, сердечно-сосудистых) и дополнительных характеристиках для разработки отдельных моделей для разработки конкретных прогностических моделей.

Модель машинного обучения для выявления симптомов на ранней стадии у пациентов, инфицированных SARS-Cov-2 — Elsevier Public Health Emergency Collection (Ссылка на бумагу)
Плюсы:

  1. Извлечение признаков из неструктурированных необработанных данных (информация о госпитализированных пациентах в текстовом формате) с использованием алгоритмов сопоставления строк и этих данных для создания обработанного набора данных.
  2. Выявление существенных симптомов у пациентов с COVID-19 путем анализа их связи с использованием пяти различных подходов машинного обучения.
  3. Представлены различные анализы по возрастным группам, которые помогают понять различия в симптомах в разных когортах.

Минусы:

  1. Статистическая значимость не рассчитывалась.
  2. Это инвазивные признаки, о которых не сообщается самостоятельно, что ограничивает использование этого исследования.
  3. Используемые данные взяты из больниц, которые действуют как узкое место, когда нужно обобщить нормальную популяцию.

Направления будущих исследований:

  1. Размер набора данных COVID-19, вероятно, был недостаточно обширным, чтобы обеспечить достаточную статистическую мощность для решения вышеуказанных проблем. Следовательно, набор данных может быть увеличен.
  2. Изучение моделей глубокого обучения может быть эффективным способом понять нелинейности.
  3. Понимание прошлых заболеваний пациентов и последствий COVID может служить источником причинно-следственных связей.

Индивидуальное прогнозирование смертности пациентов с COVID-19 с использованием методов ИИ (Ссылка на бумагу)
Плюсы.

  1. Смотрит на гипер-персонализированное предсказание летального исхода.
  2. Сравнивает методы глубокого обучения с машинным обучением и выделяет важность одного над другим различными способами.
  3. Исчерпывающий набор функций, включая различную демографию.

Минусы

  1. Самым серьезным ограничением является отсутствие качественных данных, используемых для обучения созданных моделей. Набор данных Wolfram, используемый для обучения модели прогнозирования, состоял только из 1448 случаев в централизованной области. Используемый более крупный набор данных GitHub содержал большее количество точек данных, но с менее конкретной информацией по каждому случаю, что ограничивало потенциальные возможности прогнозирования моделей.
  2. Набор данных по-прежнему основывался на медицинских записях, что, в свою очередь, ограничивает фактор обобщения.
  3. Кроме того, в исследовании не учитывалось, получали ли пациенты стационарную помощь для лечения COVID-19 до их исхода.

Направления будущих исследований:

  1. Поскольку показатели смертности от COVID-19 неоднородны в зависимости от региона, указанного Центром доказательной медицины, было бы полезно провести дополнительные исследования с более репрезентативными данными. В будущем должна быть создана модель, которая не только.
  2. Предсказывает смерть, но также может предсказать тяжесть прогрессирования заболевания. Это побудит людей обращаться за медицинской помощью, что предотвратит изнурительные будущие склонности, которые болезнь может быстро вызвать у инфицированного человека. Это может помешать многим людям попасть в отделение интенсивной терапии, если они заранее обратятся за медицинской помощью.
  3. Включив демографическую информацию, привычки в отношении здоровья (физические упражнения) или психологические факторы, профессию, симптомы и хронические заболевания подтвержденного случая, можно сделать прогнозы количества необходимых госпитализаций в данном районе с помощью обученной модели. (в сочетании с их набором данных)

Разработка классификатора с анализом методов отбора признаков для диагностики COVID-19 (Ссылка на статью)
Плюсы

  1. Учитывались как сообщаемые клинические симптомы, так и пациенты, а также история болезни.
  2. Учитывается 111 атрибутов
  3. Довольно хорошая точность 98,7%, чувствительность 96,76%, специфичность 98,80% и AUC 92%.

Минусы:

  1. Нет объяснимости (как устранение признаков, так и результаты)
  2. Высокоинвазивные функции, такие как анализы крови и т. д.