Исследователей данных не существует

Прежде чем мы начнем, я хочу подчеркнуть, что это только мое мнение, и оно основано на моем неподтвержденном опыте в этой области, поэтому YMMV. Вдохновением для этого поста (с очень кликбейтным заголовком) послужила серия дискуссий в социальных сетях о ролях специалистов по обработке и анализу данных и о том, что они представляют, например, этот пост на Reddit с просьбой к интервьюерам прекратить задавать вопросы по Leetcode. Ответы даже лучше, чем сам пост, и, на мой взгляд, подчеркивают глубокое непонимание того, что такое специалисты по данным, которые, я думал, мы уже выяснили в 2021 году, но вот мы здесь.

Наука о данных — это не роль, это целый спектр ролей. Он варьируется от инженеров данных на одном полюсе до исследователей глубокого обучения с докторской степенью на другом, с BI и аналитиком данных где-то посередине (нет, я не собираюсь вставлять диаграмму Венна). Добавьте к этому новые роли, такие как инженер-аналитик, и вы доставите своему менеджеру по персоналу головную боль, когда придет время записывать спецификации для вашей новой должности специалиста по данным. Однако большинство компаний, людей или студентов по-прежнему исходят из предположения, что наука о данных состоит из построения причудливых моделей машинного обучения, и поэтому очень разочаровываются, когда понимают, что их работа — полная противоположность машинному обучению. Этот веселый пост Кенни Нина прекрасно подводит итог этому вопросу. Не поймите меня неправильно: несколько блестящих людей из Google, Stitch Fix, Nvidia или любого другого крутого стартапа в области компьютерного зрения на самом деле работают над созданием причудливых моделей весь день, как будто их жизнь — это бесконечное соревнование Kaggle, сделанное из блесток. чистые данные, но для смертных вроде (вероятно) нас с вами такого почти никогда не будет. Разница в том, что вышеупомянутые компании находятся выше в иерархии потребностей науки о данных и, таким образом, могут позволить себе нанимать исследователей ИИ. Специалисты по данным похожи на единорогов: их не существует, а если и существуют, то они представляют собой горстку мифических существ, которых вы все равно не можете себе позволить.

Последствия этого катастрофичны. Компании нанимают дорогих специалистов по данным, которые в конечном итоге сидят в углу, где ничего никогда не попадает в производство, выпускники учебных курсов по данным обнаруживают на своей первой работе, что Excel предназначен не только для придурков и что они должны (задыхаясь) использовать SQL и в конечный оборот высок, деньги потрачены впустую, и никто больше не доверяет данным.

Будущее науки о данных яркое

Теперь проблеск надежды: эту ситуацию на самом деле довольно просто исправить (знаменитые последние слова). Обилие новых удивительных технологий, позволяющих нам манипулировать данными и создавать надежный конвейер ETL, означает, что сейчас самое подходящее время для работы в полевых условиях. Однако пришло время разбить науку о данных на ее четкие подобласти и перестать вводить кандидатов, руководителей и студентов в заблуждение относительно того, чего они могут ожидать от этой блестящей должности специалиста по данным.

Во-первых, если вы компания, определите свои потребности. У вас уже есть стабильная инфраструктура данных, надежные конвейеры, инженеры по разработке и аналитики данных? Тогда, возможно, вы готовы стать исследователем машинного обучения. Ваши данные доступны, но вы понятия не имеете, чистые они или пригодные для эксплуатации? Пришло время нанять инженера-аналитика. У вас еще нет ни конвейера, ни доступных данных? Инженер данных и инженер DevOps могут творить чудеса на этом этапе.

Во-вторых, сообщите, что вам нужно, команде по подбору персонала. Именно здесь большинство компаний терпят неудачу и заканчивают тем, что постоянно перебрасывают кандидатов. Это не работа вашего менеджера по персоналу — выплевывать расплывчатое описание работы специалиста по данным с 25 модными словечками и рассказывать о том, что вам действительно нужен «ниндзя Python» или «волшебник глубокого обучения» (серьезно не делайте этого). Затем, когда люди подают заявку, убедитесь, что вы даете им краткое изложение текущей ситуации и того, что на самом деле влечет за собой их работа. Если они будут раскручивать корзины S3 и писать SQL весь день, это нормально, но не лгите им, утверждая, что они будут читать и реализовывать исследовательские работы.

Наконец, если вы, с другой стороны, являетесь недавним выпускником в области науки о данных или его эквивалентом и хотите работать в этой области, убедитесь, что вы понимаете вышеуказанное различие и задаете правильные вопросы во время интервью. Это уменьшит вероятность того, что вы окажетесь в роли, которую на самом деле ненавидите. Также не бойтесь исследовать скучную сторону науки о данных (посмотрите, что я сделал здесь? нет? хорошо): основные передовые практики разработки программного обеспечения, такие как контроль версий, тестирование вашего кода, основные облачные службы, структуры данных и т. д., не являются с этим трудно начать, но он может дать вам преимущество, и кто знает, может быть, вы поймете, что инженерия данных на самом деле великолепна.

Удачного кодирования!

Первоначально опубликовано на https://boringdatascience.com 1 марта 2021 г.

Примечание: изначально этот пост был опубликован в моем личном блоге о [скучной науке о данных] (https://boringdatascience.com/). Если вы хотите быть в курсе моих последних сообщений, не стесняйтесь подписываться на мой Twitter (https://twitter.com/GLegoy) или подписаться на мою бесплатную рассылку («https://boringdatascience.com/ Новостная рассылка/").