Специалисты в области здравоохранения - настоящие герои настоящего момента, но специалисты по обработке данных должны сыграть важную роль в борьбе с пандемией.
Первым пунктом вашей поездки должен стать Набор данных открытых исследований COVID-19, выпущенный 20 марта Белым домом и коалицией ведущих исследовательских групп. Я рекомендую отправиться на сопутствующее соревнование Kaggle, где вы можете сотрудничать и опираться на работу других специалистов по данным, которые уже добились прогресса в очистке и понимании потенциала этого набора данных, содержащего более 29 000 научных работ, связанных с COVID-19, SARS. -CoV-2 и другие коронавирусы.
Специалистам по обработке данных это выглядит как проблема понимания естественного языка, но очень важно, чтобы у нас были специалисты-медики, чтобы направлять и проверять текущую работу.
Цели
Текущие задачи, определенные в конкурсе Kaggle, включают:
- Что известно о передаче, инкубации и устойчивости окружающей среды?
- Что мы знаем о факторах риска COVID-19?
- Помогите нам понять, как география влияет на виральность.
- Что мы знаем о генетике, происхождении и эволюции вирусов?
- Что было опубликовано по вопросам этических и социальных наук?
- Что было опубликовано о медицинском обслуживании?
- Что было опубликовано об обмене информацией и межсекторальном сотрудничестве?
- Что мы знаем о вакцинах и терапевтических средствах?
- Что мы знаем о диагностике и надзоре?
- Что мы знаем о нефармацевтических вмешательствах?
Чтобы расставить приоритеты задач, важно понимать, что может оказать наибольшее влияние на медицинских работников на местах, а также какие задачи могут адекватно поддерживать данные. Определенная работа над этим уже проделана путем выставления оценок относительных заданий по пятибалльной шкале:
- Воздействие - какова будет величина воздействия?
- Наличие данных - есть ли достоверные данные?
- Подобные решения. Решали ли мы подобные проблемы с помощью машинного обучения раньше?
- Специфика - насколько конкретно определение потребности?
- Простота - насколько просто / сложно решение?
Проблема здесь в том, что люди, которые голосуют, по-видимому, имеют совершенно разные мнения об этих рейтингах, кажется вероятным, что люди могут иметь лишь частичные знания, и ответ на вопрос о наличии данных является важной задачей само по себе.
Организация
Децентрализованная координация в настоящее время происходит в нескольких разных группах. В частности, я укажу на одну группу, поскольку я вижу в ней импульс и думаю, что в некоторой степени полезно централизовать координацию, чтобы избежать дублирования усилий. В настоящее время в Slack более 230 участников.
Если у вас есть навыки в области науки о данных или визуализации, или если у вас есть медицинское образование и вы можете внести свой вклад какое-то время, пожалуйста, зайдите в Slack и представьтесь.
Другие источники данных
В настоящее время повсюду проводится отличная работа, поэтому я свяжусь с несколькими другими источниками данных, которые могут быть интересны.
- Https://covidtracking.com/ - Проект отслеживания COVID собирает информацию из 50 штатов США, округа Колумбия и 5 других территорий США, чтобы предоставить наиболее полные данные тестирования, которые мы можем собрать для нового коронавируса, SARS-CoV. -2. Мы стараемся включать положительные и отрицательные результаты, ожидающие проверки и общее количество людей, прошедших тестирование для каждого штата или округа, которые в настоящее время предоставляют эти данные.
- Случаи COVID-19 в Великобритании по дням с разбивкой по местным властям
- Health Data Research UK Github - содержит ссылки на различные наборы данных для Великобритании
- Наш мир в статистике данных - это превосходно и содержит предисловие о том, почему эти цифры более надежны, чем данные ВОЗ.
Данные о делах на дневном уровне по географическому признаку:
- Индия - https://www.kaggle.com/sudalairajkumar/covid19-in-india
- Южная Корея - https://www.kaggle.com/kimjihoo/coronavirusdataset
- Италия - https://www.kaggle.com/sudalairajkumar/covid19-in-italy
- Бразилия - https://www.kaggle.com/unanimad/corona-virus-brazil
- США - https://www.kaggle.com/sudalairajkumar/covid19-in-usa
- Швейцария - https://www.kaggle.com/daenuprobst/covid19-cases-switzerland
- Индонезия - https://www.kaggle.com/ardisragen/indonesia-coronavirus-cases
Следите за обновлениями (и хлопайте в ладоши!), И я расскажу о том, что я считаю дорожной картой на основе того, что мы знаем в настоящее время, и укажу на наиболее полезную работу, которая была проделана до сих пор.
Этот пост изначально был размещен в блоге Atchai, посвященном науке о данных, машинному обучению и НЛП.