Выводы из моего пути из бизнеса в науку о данных

Вступление

Я помню, как думал о вторжении в науку о данных, как будто это было вчера. Я только начал свой семестр за границей в Шанхае и посетил несколько выступлений и гостевых лекций по науке о данных и машинному обучению. Однако я никогда раньше не программировал (за исключением некоторых базовых SQL) и действительно не знал, с чего начать. Первоначальный поиск в Интернете привел скорее к путанице, чем к пониманию, поскольку многие люди рекомендовали разные пути в науку о данных. Некоторые даже предлагали стать специалистом по данным без докторской степени. это невозможно.

В этой статье используется другой подход. Я не собираюсь предлагать универсальный путь в науку о данных. Вместо этого я собираюсь подробнее рассказать о своем опыте, когда пытался проникнуть в науку о данных, что, я надеюсь, может быть полезно для начинающих специалистов по данным.

Часть 1. Узнайте, как кодировать

Прежде чем пытаться делать что-либо еще, я начал учиться программировать. Поскольку я решил, что некоторые рекомендации будут полезны, я решил записаться на 12-недельный учебный курс по науке о данных в Академии наук о данных Нью-Йорка. Программа включает в себя онлайн-курс подготовки по Python, R и SQL, который необходимо пройти до фактического посещения самого учебного лагеря.

Код, код, код

Оглядываясь назад, я хотел бы больше сосредоточиться на практике программирования, чем на попытках изучить язык программирования. Как я позже понял, программирование - это навык, который в основном приобретается путем постоянной, повторяющейся практики. Позже я обнаружил и изучил великолепные книги, которые посвящены именно этому, включая Learn Python The Hard Way для Python и R для Data Science для R. Поскольку я уже использовал SQL раньше, я только пришлось пересмотреть основные команды. Если вы хотите получить более полное руководство по SQL, я бы порекомендовал начать с Курса SQL Mode Analytics.

Во время обучения программированию вы столкнетесь со многими, многими проблемами. Продолжать идти. Исправление этих ошибок и изучение своих ошибок будет очень полезно в дальнейшем. Практикуя Python в Jupyter Notebooks, я всегда документировал все свои ошибки, чтобы потом иметь возможность просмотреть их. Это привело к созданию персонализированной библиотеки фрагментов кода и интересных открытий, к которым я прибегаю по сей день.

Python или R?

Есть много факторов, которые могут повлиять на выбор между Python и R. Хочу ли я иметь легкий доступ к широкому спектру инструментов для статистического анализа данных? Тогда R, вероятно, лучший вариант. Хочу ли я выучить более универсальный язык, который можно применить ко многим вещам, помимо анализа данных? В этом случае, вероятно, вам следует выбрать Python. Однако, по моему опыту, самое главное - это выбрать один и просто начать писать код. Узнайте, какой язык вы предпочитаете, и не полагайтесь только на рекомендации третьих лиц.

Если вы хотите быть чрезвычайно универсальным, я бы порекомендовал найти фаворит, но также можно использовать и другое. К счастью для меня, NYC Data Science Academy преподает всю учебную программу как на R, так и на Python. Я лично предпочитаю использовать Python для машинного обучения, но в то же время ценю анализ данных в R с использованием tidyverse, который представляет собой набор пакетов R, предназначенных для науки о данных.

Часть 2. Обновите статистику

Будучи специалистом по бизнесу, я прослушал в колледже элементарный курс статистики, а также несколько курсов экономики и финансов. Таким образом, более глубокое погружение в статистику не означало столкнуться с чем-то, чего я никогда раньше не видел, но это все же оказалось довольно сложной задачей. На мой взгляд, особенно в 2019 году, только знания того, как использовать пакеты машинного обучения, такие как scikit-learn, недостаточно для эффективной практики науки о данных, и этого не будет достаточно, чтобы получить работу в области науки о данных.

Документируйте свой прогресс

Чтобы централизованно организовать все, что мне нужно знать, я начал создавать документы Word с резюме по каждой соответствующей теме. В Интернете есть так называемые «шпаргалки», однако я обычно нахожу их недостаточно подробными. Более того, как я подчеркивал в начале этой статьи, не существует универсального решения чего-либо, касающегося науки о данных. Таким образом, создание собственной библиотеки поиска данных по науке о данных - хорошая привычка.

Я делал заметки во время лекций на буткемпе, уточнял и просматривал их по ночам. Хотя это потребовало больших усилий, это значительно облегчило понимание все более и более сложных алгоритмов по мере прохождения лекций.

Овладейте основами

И последнее замечание по этой теме: ни при каких обстоятельствах не пропускайте основы. Поначалу попытка перейти к модным алгоритмам может показаться заманчивой, но, на мой взгляд, лучше всего потратить большую часть времени на изучение основ. Помимо лекций, я прочитал несколько книг о статистике и статистическом обучении. На мой взгляд, лучшей книгой по статистическому обучению является «Введение в статистическое обучение: с применением в R» Даниэлы Виттен, Роберта Тибширани и Тревора Хасти. В разных книгах используются разные подходы. Таким образом, объединение книг, в которых основное внимание уделяется словесному объяснению алгоритмов, с книгами, в которых подробно рассматриваются технические детали, оказалось хорошим вложением моего времени. Меня тоже заинтриговали все модные словечки, циркулирующие в Интернете, но в конечном итоге я обнаружил, что сначала нужно заложить очень прочную основу, прежде чем можно будет подумать о добавлении новых возможностей в свой набор навыков в области науки о данных.

Задайте много вопросов

Если вам случится посетить учебный лагерь, как я, воспользуйтесь услугами своих инструкторов. Задайте как можно больше вопросов. Не ждите, пока у вас возникнут серьезные проблемы, прежде чем начинать задавать вопросы. Даже показать более опытным людям свой код и спросить, как повысить его эффективность, может оказаться чрезвычайно полезным.

Если вы не можете получить профессиональную помощь, не отчаивайтесь. Есть множество онлайн-сообществ и ресурсов, которые помогут вам ответить на ваши вопросы. Скорее всего, вы не первый, кто столкнется с этой проблемой. Кроме того, если вы сами выберете решение, это поможет вам легче его запомнить.

Другие вещи, которые стоит освежить

В зависимости от вашего опыта, неплохо было бы изучить основы линейной алгебры и исчисления. Я бы порекомендовал либо пройтись по вашей старой линейной алгебре или заметкам по исчислению, либо пройти онлайн-курс, например, свободно доступный курс линейной алгебры Массачусетского технологического института. Это особенно важно, если вам интересно читать академические статьи и другие технические книги.

Часть 3. Создание портфеля проектов

Завершить как минимум четыре проекта

Этот третий шаг имеет первостепенное значение, если вы хотите получить работу в области науки о данных. Чтобы убедить своих потенциальных работодателей в том, что они должны нанять вас и применить на практике то, что вы узнали, попробуйте выполнить как минимум четыре крупных проекта.

Если вы, как и я, посещаете учебный курс NYC Data Science Academy, вам придется выполнить три проекта, охватывающих все аспекты жизненного цикла науки о данных. Эти проекты охватят все: от сбора данных до визуализации данных и машинного обучения. Наконец, проект Capstone позволяет вам выбрать любую тему, над которой вы хотите работать. Вы должны использовать эту возможность, чтобы позиционировать себя на рынке труда и ориентироваться на работодателей вашей мечты. Например, если ваша цель - применить науку о данных к данным здравоохранения, попробуйте найти проект, который решает проблему в этой области, например, прогнозирование начала диабета.

Не останавливайтесь на достигнутом

Если вы действительно хотите выйти в конкретную отрасль, не стоит останавливаться на четырех проектах. Найдите данные, которые могут иметь отношение к работодателю вашей мечты, и поэкспериментируйте с ними. Создайте что-нибудь интересное и напишите статью или сообщение в блоге о своем проекте. Чем больше вы демонстрируете свои способности и интерес к определенной области, тем больше вероятность того, что вы произведете впечатление на людей в этой отрасли.

Не пытайтесь быть слишком модным

Выбирая проекты, возникает соблазн пойти на фантастические вещи. Не делай этого. По крайней мере, не сразу. Убедитесь, что ваши проекты надежны от начала до конца и содержат как можно меньше ошибок. Пусть кто-нибудь проверит ваши проекты и рассмотрит их за вас. На буткемпе я представил все свои проекты одноклассникам и инструкторам. Получение разных мнений о своей работе поможет вам улучшить будущие проекты.

Часть 4. Попытка найти работу

Подготовка - ключ к успеху

Если вы хотите добиться успеха в процессе приема на работу в области науки о данных, подготовьтесь как можно лучше. Ознакомьтесь с проблемами кодирования на HackerRank, ознакомьтесь с типами задаваемых вопросов и, что, возможно, наиболее важно, задокументируйте процесс собеседования. Как и в случае с теорией машинного обучения, вам следует создать документ, в котором вы описываете и оцениваете свой опыт во время собеседования.

Затем перед каждым собеседованием просматривайте этот документ вместе с документами по теории машинного обучения и убедитесь, что вы не повторяете ошибок. Также может быть полезно разогреться перед тем, как приступить к задаче кодирования, выполнив некоторые задачи на HackerRank.

Узнайте, как заявить о себе

Если вы хотите получить работу в области науки о данных, вам придется конкурировать со многими другими кандидатами. Выделите себя, создав свое индивидуальное повествование. Почему вы идеально подходите? Почему вы выбрали именно эти проекты? Почему наука о данных вообще? Поскольку вам придется представляться почти на каждом собеседовании, убедитесь, что вы составили сильное повествование, которое можно адаптировать в зависимости от того, на какую компанию вы нацелены.

Пока вы это делаете, готовьте питчи и для своих проектов. Не каждый потенциальный работодатель захочет услышать, как вы описываете все свои проекты. Может быть, один конкретный проект привлек внимание людей, которые собираются брать у вас интервью. Убедитесь, что вы можете подробно описать каждый проект, но также имеете запасной вариант на тот случай, если вам понадобится только краткое описание ваших проектов.

Практикуйте эти передачи перед другими людьми. Думать о том, что вы могли бы сказать дома, нельзя сравнить с тем, чтобы стоять перед незнакомыми людьми, пытаясь объяснить свои проекты. Если вы ходите в школу или посещаете учебный лагерь, потренируйтесь рассказывать о себе со своими одноклассниками и давать друг другу конструктивные отзывы. Таким образом вы сможете избежать нескольких ошибок перед первым собеседованием.

Сеть

После завершения учебного курса NYC Data Science Academy всем выпускникам предлагается посетить мероприятие для партнеров по найму, на котором вы, возможно, сможете найти своего будущего работодателя. Прежде чем посещать подобные мероприятия, абсолютно необходимо уже научиться продвигать себя и свои проекты. Будьте агрессивны, посещая такие мероприятия. Изучите менеджеров по найму и рекрутеров, которые собираются посетить мероприятие. Во время мероприятия постарайтесь как можно быстрее выяснить, не возникнет ли между вами и компанией согласие. Передайте свое резюме и попросите визитки. Еще один очень важный совет: не разговаривайте только с одним или двумя людьми. Даже если есть потенциал для отличной подгонки, не ограничивайте себя в количестве потенциальных предложений о работе. Продолжайте после того, как пройдет определенный период знакомства и обмена контактной информацией.

Нетворкинг - это навык, требующий практики. К счастью для меня, буткемп предоставил своим студентам обширные советы и подсказки о том, как ориентироваться в сетевых событиях. Убедитесь, что вы знаете правила поведения в сети (например, напишите хорошее электронное письмо каждому менеджеру по найму, который присутствовал на мероприятии).

Однако, как и в случае с проектами, не останавливайтесь на достигнутом. Общайтесь с людьми вокруг вас. Наука о данных - увлекательная область, в которой работает множество увлекательных людей. Общайтесь со своими одноклассниками, если вы учитесь в школе или на учебном лагере. Найдите интересных людей, на которых можно подписаться в LinkedIn. Посещайте встречи по науке о данных в своем городе. Есть много возможностей для нетворкинга, и чем больше вы этим занимаетесь, тем лучше у вас это получается.

Не сдавайтесь

Найти работу может быть сложно. Вы можете пойти на множество собеседований только для того, чтобы люди сказали вам, что они не смогут вас нанять. Если вам не повезет, и вы сразу найдете работу, получение работы может оказаться очень неприятным процессом. Не отчаивайся. Если вы продолжите настойчиво улучшать себя и свое резюме, кто-то в конечном итоге это заметит. Продолжайте верить, что получите желаемое предложение о работе. Поговорите с людьми, которые уже проходили процесс приема на работу в области науки о данных, и вы увидите, что у многих из них было много чрезвычайно разочаровывающих собеседований. То, что отличает тех, кто добивается успеха, от тех, кто этого не делает, в конечном итоге во многом связан со способностью продолжать борьбу и не сдаваться.

Заключение

Стать специалистом по данным в 2019 году непросто. Вам придется преодолеть множество препятствий и множество проблем, которые вам придется преодолеть. Тем не менее, успехи в этом процессе огромны. Вы сможете не только заниматься любимым делом, но и общаться с очень яркими людьми из самых разных слоев общества. Просто сделайте первый шаг, а остальное приложится. Начните следовать своей страсти. Это нормально, если это займет у вас больше времени, чем у других, важна ваша сила воли. Убедившись, что вы неуклонно совершенствуетесь день ото дня, вы в конечном итоге добьетесь того, чего хотите.