Ссылка на базовый документ: https://arxiv.org/abs/2105.08321
Блог написан: Сетху (Я), Рамья (Рамья Б) и Рохан
Автор статьи: Партх Патва, Вишваната Редди, Рохан Сукумаран, Сетураман ТВ, Эптехал Нашнуш, Шешанк Шанкар, Ришемджит Каур, Абхишек Сингх , Рамеш Раскар
Привет! Самая кропотливая задача начинающего исследователя — выявить пробелы в существующей работе. Из фонда PathCheck мы пытались принять участие в конкурсе данных о симптомах COVID 19, организованном Facebook, CMU и UMD. Задача заключалась в том, чтобы оценить процентную долю COVID-19, используя симптомы, о которых сообщают сами, ненавязчивым образом, чтобы ускорить процесс тестирования и карантина, особенно в условиях ограниченных ресурсов. Здесь первым шагом было определение того, «что уже было сделано в этом пространстве», и итеративная импровизация, чтобы решить насущную проблему. В связи с этим мы следовали формату, чтобы определить пробелы или возможную новизну, которые можно было бы внести в текущую исследовательскую работу.
Грубое описание проблемы, которую мы пытались решить:
Быстрое развитие пандемии COVID-19 спровоцировало крупномасштабные усилия по сбору данных на международном уровне для изучения эпидемиологии вируса и формирования политики. Были предприняты различные исследования для прогнозирования распространения, тяжести и уникальных характеристик инфекции COVID-19 с использованием широкого спектра наборов клинических данных, изображений и данных на уровне населения. Несмотря на это, пандемия продолжает бросать вызов системам здравоохранения во всем мире во многих аспектах, включая резкое увеличение спроса на больничные койки и острую нехватку медицинского оборудования. В дополнение к этому, многие медицинские работники сами были инфицированы. Это ограничивает возможность принятия немедленных клинических решений и практического использования ресурсов здравоохранения.
Наиболее проверенный диагностический тест на COVID-19 с использованием полимеразной цепной реакции с обратной транскриптазой (ОТ-ПЦР) уже давно отсутствует в развивающихся странах. Это способствует повышению уровня инфицирования и задержкам в принятии важнейших профилактических мер. Таким образом, эффективный скрининг позволяет быстро и эффективно диагностировать COVID-19 и может снизить нагрузку на системы здравоохранения.
Одним из таких эффективных методов скрининга было использование симптомов, о которых сообщали сами люди, и проверка того, могут ли эти симптомы служить хорошим индикатором для оценки вероятности COVID 19. Например, было показано, что аносмия является самым сильным предиктором наличия заболевания (в конце сентября). и было указано, что модель для выявления заболеваний с использованием предикторов на основе симптомов имеет чувствительность около 65%. С момента появления COVID-19 также был проделан значительный объем работы по математическому моделированию, чтобы понять вспышку в различных ситуациях для разных демографических групп. Однако эти работы в первую очередь ориентированы на популяционный уровень. Кроме того, оценка различных вероятностей перехода для перемещения между отсеками является сложной задачей.
Таким образом, необходимо понимать тенденции в распространении COVID-19, используя результаты самостоятельных опросов о симптомах COVID-19 в качестве альтернативы отчетам о тестировании COVID-19. Это позволяет нам оценивать распространенность заболеваний в сообществе даже в районах с низкими возможностями тестирования на COVID-19. Используя индивидуально сообщаемые данные о симптомах из различных групп населения, мы предсказали вероятный процент населения с положительным результатом на COVID-19.
Поэтому, учитывая важность проблемы, мы попытались решить ее, и это пример обзора литературы / метода, которому мы следовали.
Мы используем следующий метод:
- Плюсы (помогает нам извлечь уроки из их сильных сторон)
2. Минусы (помогает нам заранее подготовиться к потенциальным ловушкам и понять некоторые хорошо известные проблемы и ограничения)
3. Будущая работа (это прямая раздача для нас, чтобы начать и изучить новую тему исследования)
Прогнозирование диагноза COVID-19 на основе машинного обучения на основе симптомов — Природа (Ссылка на бумагу)
Плюсы:
- Большой высококачественный набор данных для эффективного понимания динамики заболевания. (51831 протестированных человек)
- Обучение проводится с использованием непредвзятых признаков.
- Большинство предыдущих моделей были основаны на данных госпитализированных пациентов, поэтому они неэффективны при скрининге на SARS-CoV-2 среди населения в целом. Данная работа пытается решить эту задачу.
Минусы:
- Предвзятость и отсутствие информации о многих функциях не были эффективно обработаны. Например, для пациентов, помеченных как имевшие контакт с человеком, у которого подтверждено наличие COVID-19, дополнительная информация, такая как продолжительность и место контакта (в помещении/на улице), была недоступна. Предыдущие исследования определили, что некоторые симптомы (такие как отсутствие обоняния и вкуса) очень предсказуемы для инфекции COVID-19, но не были зарегистрированы Министерством здравоохранения Израиля.
- Обратите внимание, что обо всех симптомах сообщалось самостоятельно, и отрицательное значение симптома может означать, что о симптоме не сообщалось. Поэтому важно оценивать производительность модели в том случае, если больше значений не сообщается или отсутствует, чем с отрицательными значениями. Авторы упустили это из виду.
- Результаты менее информативны, а используемый алгоритм бустинга чувствителен к выбросам, поскольку каждый классификатор обязан исправлять ошибки в предшественниках. Таким образом, метод слишком зависит от выбросов и склонен к переобучению. Другим недостатком является то, что метод почти невозможно масштабировать, потому что правильность каждой оценки основывается на предыдущих предикторах, что затрудняет оптимизацию процедуры.
Направления будущих исследований:
- Параллельно с углублением понимания роли различных симптомов в диагностике заболевания в будущие модели могут быть включены дополнительные симптомы.
- Авторы могут попробовать использовать модель глубокого обучения и другие интерпретируемые подходы машинного обучения, чтобы понять нелинейность данных.
- Оценку пандемии можно рассматривать путем учета данных из других стран, вариантов, прививок и т. д.
Исследование риска смертности от COVID-19 на основе машинного обучения — PLOS (Paper link)
Плюсы:
- Учитывались как инвазивные, так и неинвазивные признаки.
- Это одна из первых работ, посвященных изучению прогностической способности инвазивных и неинвазивных признаков. Оценка инвазивных биомаркеров дает более прямые и причинно-следственные выводы о нашем физиологическом состоянии. Напротив, неинвазивные признаки содержат более широкую косвенную информацию о теле.
- Объяснимые модели машинного обучения использовались для оценки риска смертности от COVID-19.
Минусы:
- Средний возраст составляет 62 года, что не учитывает большую часть молодого населения, поэтому анализ может быть недостаточно надежным, чтобы масштабировать его на более молодое население.
- Интервал сбора данных в этом исследовании охватывал первую волну пандемии, и медицинские записи были задокументированы в спешке как высокая нагрузка пациентов. Ограниченный медицинский персонал вынудил медицинскую систему уделять приоритетное внимание лечению пациентов. Таким образом, многие пациенты имели неполные медицинские профили и были просеяны перед фазой проверки данных. Упомянутые выше факторы ограничивали размер выборки исследования.
- В больнице Массих Данешвари было больше тяжелых и умерших пациентов, поскольку это был центр первичной медицинской помощи для COVID-19. Таким образом, показатели тяжести и смертности в этом исследовании не отражают популяционные уровни этих переменных, что может добавить в исследование искажающие эффекты.
Направления будущих исследований:
- В анализе не учитываются различия прогностических признаков в отношении различных демографических данных и вариантов. Для дальнейшей оценки наших результатов можно использовать более обширные и более разнообразные исследуемые группы.
- Будущие исследователи смогут сравнить прогностическую способность признаков изображения с лабораторными и неинвазивными признаками.
- Будущие исследования могут быть сосредоточены на отдельных группах сопутствующих заболеваний (например, сердечно-сосудистых) и дополнительных характеристиках для разработки отдельных моделей для разработки конкретных прогностических моделей.
Модель машинного обучения для выявления симптомов на ранней стадии у пациентов, инфицированных SARS-Cov-2 — Elsevier Public Health Emergency Collection (Ссылка на бумагу)
Плюсы:
- Извлечение признаков из неструктурированных необработанных данных (информация о госпитализированных пациентах в текстовом формате) с использованием алгоритмов сопоставления строк и этих данных для создания обработанного набора данных.
- Выявление существенных симптомов у пациентов с COVID-19 путем анализа их связи с использованием пяти различных подходов машинного обучения.
- Представлены различные анализы по возрастным группам, которые помогают понять различия в симптомах в разных когортах.
Минусы:
- Статистическая значимость не рассчитывалась.
- Это инвазивные признаки, о которых не сообщается самостоятельно, что ограничивает использование этого исследования.
- Используемые данные взяты из больниц, которые действуют как узкое место, когда нужно обобщить нормальную популяцию.
Направления будущих исследований:
- Размер набора данных COVID-19, вероятно, был недостаточно обширным, чтобы обеспечить достаточную статистическую мощность для решения вышеуказанных проблем. Следовательно, набор данных может быть увеличен.
- Изучение моделей глубокого обучения может быть эффективным способом понять нелинейности.
- Понимание прошлых заболеваний пациентов и последствий COVID может служить источником причинно-следственных связей.
Индивидуальное прогнозирование смертности пациентов с COVID-19 с использованием методов ИИ (Ссылка на бумагу)
Плюсы.
- Смотрит на гипер-персонализированное предсказание летального исхода.
- Сравнивает методы глубокого обучения с машинным обучением и выделяет важность одного над другим различными способами.
- Исчерпывающий набор функций, включая различную демографию.
Минусы
- Самым серьезным ограничением является отсутствие качественных данных, используемых для обучения созданных моделей. Набор данных Wolfram, используемый для обучения модели прогнозирования, состоял только из 1448 случаев в централизованной области. Используемый более крупный набор данных GitHub содержал большее количество точек данных, но с менее конкретной информацией по каждому случаю, что ограничивало потенциальные возможности прогнозирования моделей.
- Набор данных по-прежнему основывался на медицинских записях, что, в свою очередь, ограничивает фактор обобщения.
- Кроме того, в исследовании не учитывалось, получали ли пациенты стационарную помощь для лечения COVID-19 до их исхода.
Направления будущих исследований:
- Поскольку показатели смертности от COVID-19 неоднородны в зависимости от региона, указанного Центром доказательной медицины, было бы полезно провести дополнительные исследования с более репрезентативными данными. В будущем должна быть создана модель, которая не только.
- Предсказывает смерть, но также может предсказать тяжесть прогрессирования заболевания. Это побудит людей обращаться за медицинской помощью, что предотвратит изнурительные будущие склонности, которые болезнь может быстро вызвать у инфицированного человека. Это может помешать многим людям попасть в отделение интенсивной терапии, если они заранее обратятся за медицинской помощью.
- Включив демографическую информацию, привычки в отношении здоровья (физические упражнения) или психологические факторы, профессию, симптомы и хронические заболевания подтвержденного случая, можно сделать прогнозы количества необходимых госпитализаций в данном районе с помощью обученной модели. (в сочетании с их набором данных)
Разработка классификатора с анализом методов отбора признаков для диагностики COVID-19 (Ссылка на статью)
Плюсы
- Учитывались как сообщаемые клинические симптомы, так и пациенты, а также история болезни.
- Учитывается 111 атрибутов
- Довольно хорошая точность 98,7%, чувствительность 96,76%, специфичность 98,80% и AUC 92%.
Минусы:
- Нет объяснимости (как устранение признаков, так и результаты)
- Высокоинвазивные функции, такие как анализы крови и т. д.