5 лет назад я начал свой путь в качестве специалиста по данным с курса машинного обучения доктора Эндрю Нг на Coursera. Пытаясь изучить глубже, я пришел к выводу, что люди уже давно используют эти данные. Чтобы улучшить себя, улучшить компанию и т. Д. Итак, почему мы на волне данных / ИИ? Это что-то новенькое? Или это просто еще одно модное слово?

Я понял, насколько важны данные. Хотя, может показаться, что это не так, даже Стив Джобс упоминает, что «Информация - сила». Такие компании, как Apple, Google и Microsoft, используют данные уже несколько десятилетий. Хотя это происходило за счет интересов людей к неприкосновенности частной жизни, мы, люди, нашли способы извлечь из этого прибыль. (который, вероятно, будет решен в ближайшие несколько лет)

«Информация - сила» - Стив Джобс.

Кто такой специалист по данным? Что должен делать этот человек?

Некоторые основные требования от специалиста по данным:

Бизнес-приложение: хотя разработчику это может показаться несущественным, я считаю, что это, вероятно, самый быстрый способ сэкономить время. Бизнес-цели можно разделить на следующие отделы - финансовый (CFO), по работе с клиентами и технический руководитель (CTO). Финансовый фронт помогает понять, насколько ценна идея / проблема, отношения с клиентами помогают сэкономить время на понимание релевантных и нерелевантных данных, а технический руководитель позволяет вам оценить ресурсы, доступные для решения проблемы.

Необходимо разделить проблему на - финансовую (CFO), отношения с клиентами и технический руководитель (CTO)

Проблема с данными. Когда компания понимает бизнес-проблему, она сталкивается с проблемой данных. Даже у гиганта данных, Google, недостаточно данных для создания своих продуктов. Он по-прежнему всегда собирает данные для расширения своей базы знаний. На каждом этапе науки о данных всегда требуется больше данных для запуска, оптимизации и улучшения алгоритма. Конвейеризация данных также важна в зависимости от того, кому предназначены данные - бизнесу, программистам и специалистам по данным.

Даже у гиганта данных Google не хватает данных.

Математическое / машинное обучение. Осознание того, какой алгоритм использовать, - это навык, которому не научили, а научились с большим трудом. Хорошее знание алгоритмов может значительно сэкономить во время реализации. Хотя 80% проблем можно решить с помощью алгоритмов регрессии или классификации, даже этот шаг труден, учитывая его сложность. Методы оценки (например, матрица ошибок для алгоритмов классификации) очень важны. Ошибка в алгоритме, вопреки стереотипам, - это хорошо. У вас больше возможностей для совершенствования, и вы не переусердствуете. Найти эту золотую середину чрезвычайно важно на протяжении всего срока службы модели машинного обучения.

Ошибка в алгоритме, вопреки стереотипам, - это хорошо.

Реализация. Хотя реализация может показаться самой простой из многих. Чтобы довести код до производственного уровня, нужна хорошая команда. Каким должно быть уравнение предсказания? В идеале уравнения должны предсказывать стоимость дня за полчаса. В python Falcon (фреймворк для вызовов API) может достигать около 102500 прогнозов в секунду (CPython 2.7.14). Умение легко создавать информационные панели - это тоже навык. Их несколько для каждого уровня презентации. Это может быть аргумент в пользу вашей идеи или представление алгоритма отделу продаж.

Каждый является Data Scientist по-своему.

Стремитесь быть тем единорогом, которого ищут люди. Хотя это может показаться действительно сложным, каждый является специалистом по анализу данных по-своему. Нам просто нужно найти ту часть, которая нам наиболее удобна. (P.S. Я все еще пытаюсь разобраться в этой части сам)