Специалисты в области здравоохранения - настоящие герои настоящего момента, но специалисты по обработке данных должны сыграть важную роль в борьбе с пандемией.

Первым пунктом вашей поездки должен стать Набор данных открытых исследований COVID-19, выпущенный 20 марта Белым домом и коалицией ведущих исследовательских групп. Я рекомендую отправиться на сопутствующее соревнование Kaggle, где вы можете сотрудничать и опираться на работу других специалистов по данным, которые уже добились прогресса в очистке и понимании потенциала этого набора данных, содержащего более 29 000 научных работ, связанных с COVID-19, SARS. -CoV-2 и другие коронавирусы.

Специалистам по обработке данных это выглядит как проблема понимания естественного языка, но очень важно, чтобы у нас были специалисты-медики, чтобы направлять и проверять текущую работу.

Цели

Текущие задачи, определенные в конкурсе Kaggle, включают:

  • Что известно о передаче, инкубации и устойчивости окружающей среды?
  • Что мы знаем о факторах риска COVID-19?
  • Помогите нам понять, как география влияет на виральность.
  • Что мы знаем о генетике, происхождении и эволюции вирусов?
  • Что было опубликовано по вопросам этических и социальных наук?
  • Что было опубликовано о медицинском обслуживании?
  • Что было опубликовано об обмене информацией и межсекторальном сотрудничестве?
  • Что мы знаем о вакцинах и терапевтических средствах?
  • Что мы знаем о диагностике и надзоре?
  • Что мы знаем о нефармацевтических вмешательствах?

Чтобы расставить приоритеты задач, важно понимать, что может оказать наибольшее влияние на медицинских работников на местах, а также какие задачи могут адекватно поддерживать данные. Определенная работа над этим уже проделана путем выставления оценок относительных заданий по пятибалльной шкале:

  • Воздействие - какова будет величина воздействия?
  • Наличие данных - есть ли достоверные данные?
  • Подобные решения. Решали ли мы подобные проблемы с помощью машинного обучения раньше?
  • Специфика - насколько конкретно определение потребности?
  • Простота - насколько просто / сложно решение?

Проблема здесь в том, что люди, которые голосуют, по-видимому, имеют совершенно разные мнения об этих рейтингах, кажется вероятным, что люди могут иметь лишь частичные знания, и ответ на вопрос о наличии данных является важной задачей само по себе.

Организация

Децентрализованная координация в настоящее время происходит в нескольких разных группах. В частности, я укажу на одну группу, поскольку я вижу в ней импульс и думаю, что в некоторой степени полезно централизовать координацию, чтобы избежать дублирования усилий. В настоящее время в Slack более 230 участников.

Если у вас есть навыки в области науки о данных или визуализации, или если у вас есть медицинское образование и вы можете внести свой вклад какое-то время, пожалуйста, зайдите в Slack и представьтесь.

Другие источники данных

В настоящее время повсюду проводится отличная работа, поэтому я свяжусь с несколькими другими источниками данных, которые могут быть интересны.

Данные о делах на дневном уровне по географическому признаку:

Следите за обновлениями (и хлопайте в ладоши!), И я расскажу о том, что я считаю дорожной картой на основе того, что мы знаем в настоящее время, и укажу на наиболее полезную работу, которая была проделана до сих пор.

Этот пост изначально был размещен в блоге Atchai, посвященном науке о данных, машинному обучению и НЛП.