5 лет назад я начал свой путь в качестве специалиста по данным с курса машинного обучения доктора Эндрю Нг на Coursera. Пытаясь изучить глубже, я пришел к выводу, что люди уже давно используют эти данные. Чтобы улучшить себя, улучшить компанию и т. Д. Итак, почему мы на волне данных / ИИ? Это что-то новенькое? Или это просто еще одно модное слово?
Я понял, насколько важны данные. Хотя, может показаться, что это не так, даже Стив Джобс упоминает, что «Информация - сила». Такие компании, как Apple, Google и Microsoft, используют данные уже несколько десятилетий. Хотя это происходило за счет интересов людей к неприкосновенности частной жизни, мы, люди, нашли способы извлечь из этого прибыль. (который, вероятно, будет решен в ближайшие несколько лет)
«Информация - сила» - Стив Джобс.
Кто такой специалист по данным? Что должен делать этот человек?

Некоторые основные требования от специалиста по данным:
Бизнес-приложение: хотя разработчику это может показаться несущественным, я считаю, что это, вероятно, самый быстрый способ сэкономить время. Бизнес-цели можно разделить на следующие отделы - финансовый (CFO), по работе с клиентами и технический руководитель (CTO). Финансовый фронт помогает понять, насколько ценна идея / проблема, отношения с клиентами помогают сэкономить время на понимание релевантных и нерелевантных данных, а технический руководитель позволяет вам оценить ресурсы, доступные для решения проблемы.
Необходимо разделить проблему на - финансовую (CFO), отношения с клиентами и технический руководитель (CTO)
Проблема с данными. Когда компания понимает бизнес-проблему, она сталкивается с проблемой данных. Даже у гиганта данных, Google, недостаточно данных для создания своих продуктов. Он по-прежнему всегда собирает данные для расширения своей базы знаний. На каждом этапе науки о данных всегда требуется больше данных для запуска, оптимизации и улучшения алгоритма. Конвейеризация данных также важна в зависимости от того, кому предназначены данные - бизнесу, программистам и специалистам по данным.
Даже у гиганта данных Google не хватает данных.
Математическое / машинное обучение. Осознание того, какой алгоритм использовать, - это навык, которому не научили, а научились с большим трудом. Хорошее знание алгоритмов может значительно сэкономить во время реализации. Хотя 80% проблем можно решить с помощью алгоритмов регрессии или классификации, даже этот шаг труден, учитывая его сложность. Методы оценки (например, матрица ошибок для алгоритмов классификации) очень важны. Ошибка в алгоритме, вопреки стереотипам, - это хорошо. У вас больше возможностей для совершенствования, и вы не переусердствуете. Найти эту золотую середину чрезвычайно важно на протяжении всего срока службы модели машинного обучения.
Ошибка в алгоритме, вопреки стереотипам, - это хорошо.
Реализация. Хотя реализация может показаться самой простой из многих. Чтобы довести код до производственного уровня, нужна хорошая команда. Каким должно быть уравнение предсказания? В идеале уравнения должны предсказывать стоимость дня за полчаса. В python Falcon (фреймворк для вызовов API) может достигать около 102500 прогнозов в секунду (CPython 2.7.14). Умение легко создавать информационные панели - это тоже навык. Их несколько для каждого уровня презентации. Это может быть аргумент в пользу вашей идеи или представление алгоритма отделу продаж.
Каждый является Data Scientist по-своему.
Стремитесь быть тем единорогом, которого ищут люди. Хотя это может показаться действительно сложным, каждый является специалистом по анализу данных по-своему. Нам просто нужно найти ту часть, которая нам наиболее удобна. (P.S. Я все еще пытаюсь разобраться в этой части сам)