Наука о данных

Как биолог стал специалистом по анализу данных

Как я перешел от нетехнической подготовки к науке о данных

В этой статье я поделюсь своим опытом перехода от биолога к аналитику данных. Эта статья является расширенной версией оригинального видео с моего YouTube-канала Data Professor:

Краткий обзор моего академического путешествия

Итак, прежде чем мы начнем, возможно, немного о себе. Я работаю в области науки о данных с 2004 года, когда я учился на втором курсе докторантуры. К 2006 году я защитил кандидатскую диссертацию под названием Компьютерный молекулярный дизайн для биологических и химических приложений: подход к квантовой химии и машинному обучению. Вкратце, мои исследования лежат на стыке биологии, химии и информатики, благодаря чему слияние этих областей позволяет мне исследовать лежащие в основе источники функции белка и ее модуляцию (т.е. ингибирование или активация). Такое понимание имеет большое значение для открытия лекарств, особенно для открытия новых биоактивных соединений с терапевтической активностью.

Перенесемся в 2020 год, и я все еще использую науку о данных, чтобы анализировать данные из биологии, химии и медицины. Большая часть моей работы вращается вокруг открытия лекарств, которые проявляют многообещающие модулирующие свойства против болезней, специфически воздействуя на целевые белки, представляющие интерес. Это выполняется с помощью машинного обучения, чтобы понять и выявить, какие специфические особенности молекул, подобных лекарствам, приводят к многообещающей модуляции целевого белка.

Как я начал заниматься наукой о данных?

Мое путешествие в науку о данных началось еще в 2004 году. Это было время, когда эта область еще не называлась наукой о данных, а более популярным термином был интеллектуальный анализ данных. Я хорошо помню, что первым проектом в области науки о данных, над которым я работал, было предсказание участков соединения ДНК. Первым инструментом интеллектуального анализа данных, который я начал использовать, была программа WEKA, разработанная Университетом Вайкато. Это программное обеспечение представляет собой программное обеспечение с графическим интерфейсом пользователя, в котором мы можем нажимать различные кнопки для импорта данных, выполнения выбора функций, нормализации данных, удаления недостающих данных, а также для построения моделей машинного обучения. Некоторые из используемых мной алгоритмов машинного обучения включают деревья решений, линейную регрессию, искусственную нейронную сеть и машину опорных векторов.

Первоначально я начинал как пользователь программного обеспечения интеллектуального анализа данных на основе графического интерфейса пользователя, и со временем я начал понимать некоторые ограничения и препятствия. В частности, я заметил, что время, необходимое для запуска рабочего процесса интеллектуального анализа данных, занимает много времени, особенно когда я хочу оптимизировать параметры обучения, мне придется вручную изменять значения параметров в программе (т.е. 1000 различных настроек параметров). Через несколько лет у меня возникло желание научиться автоматизировать эти ручные и рутинные задачи.

Следующим естественным шагом было бы перейти на такой язык программирования, как Python или R.

Обучение программированию

Обучение программированию - действительно сложное занятие, и довольно сложное, если не иметь технической подготовки. Лично я в значительной степени пробовал все: от чтения книг, руководств, переполнения стека, опроса коллег и т. Д. Из собственного опыта обучения я обнаружил, что если я использую свою исследовательскую задачу в качестве основы для обучения программированию (т.е. вместо того, чтобы использовать пример набора данных), тогда это становится менее обременительным. Потому что, выполнив задачу по кодированию, я буду немедленно вознагражден прогрессом в моем исследовательском проекте.

Как я разбиваю проблемы кодирования на управляемые биты

Допустим, у меня есть исследовательская проблема, которую я хотел решить, первое, что я сделал бы, это разбил проблему на самодостаточные задачи (например, объединить содержимое из определенных столбцов из нескольких файлов Excel в 1 файл). Чтобы решить эту проблему, я бы изучил учебные пособия, ответы на вопросы о переполнении стека, а также определенные разделы книг по кодированию. Таким образом, повторение этого снова и снова привело меня к тому, что я постепенно осознал концепцию кодирования и понял, что это не так сложно, и это то, что достижимо. По мере того, как я решал все больше и больше проблем, я начал получать мотивацию и становился увереннее в программировании. Постепенное развитие небольших индивидуальных задач по кодированию способствовало накоплению результатов проекта и его окончательному завершению. На этом этапе я испытываю огромное удовлетворение от того, что написал рабочий процесс для обработки данных, который значительно повысил производительность, а также сэкономил время и средства. Таким образом, то, что раньше занимало шесть месяцев, может занять всего пару минут при написании решения с использованием кода R или Python. Если подумать, возможность кодировать - это как суперсилы!

Кодирование = Суперсила

Так что, если такой биолог, как я, может научиться программированию, то я верю, что программированию может научиться и каждый. Так что с решимостью и практикой каждый может писать код.

Как я использую кодирование в своих исследованиях

Как специалист по биомедицинским данным я столкнулся с проблемой понимания биомедицинских данных. Часто мне приходится тратить большую часть своего времени на обработку собранных данных, чтобы предварительно обработать данные для дальнейшего значимого анализа. Поскольку эта задача очень утомительная и повторяющаяся, я рад, что могу закодировать решение на R и Python (да, я написал две отдельные версии на этих двух языках) для программной предварительной обработки данных, чтобы они были качественный для дальнейшего анализа. Помимо использования кодирования для предварительной обработки данных, я также использую его для выполнения исследовательского анализа данных, а также для построения моделей машинного обучения. Моя любимая часть рабочего процесса в области науки о данных - это процесс разработки соответствующей визуализации данных, которая наилучшим образом передаст историю данных в максимально возможной степени.

Заключительные замечания

Вот и все, моя история о том, как я перешел от нетехнического образования от биолога к специалисту по анализу данных. Я надеюсь, что это поможет вам понять, как вы тоже можете начать свое собственное путешествие в области науки о данных.

Подпишитесь на мой список рассылки, чтобы получать мои лучшие обновления (а иногда и бесплатные) в Data Science!

Обо мне

Я работаю полный рабочий день адъюнкт-профессором биоинформатики и руководителем отдела интеллектуального анализа данных и биомедицинской информатики в исследовательском университете в Таиланде. В нерабочее время я ютубер (он же профессор данных), снимаю онлайн-видео о науке о данных. Во всех обучающих видео, которые я делаю, я также размещаю записные книжки Jupyter на GitHub (страница Data Professor GitHub).



Свяжитесь со мной в социальной сети

✅ YouTube: http://youtube.com/dataprofessor/
✅ Веб-сайт: http://dataprofessor.org/ (в разработке)
✅ LinkedIn: https: //www.linkedin. com / company / dataprofessor /
✅ Twitter: https://twitter.com/thedataprof
✅ FaceBook: http://facebook.com/dataprofessor/
✅ GitHub : Https://github.com/dataprofessor/
✅ Instagram: https://www.instagram.com/data.professor/