Сделать первый шаг в карьере специалиста по данным может быть чрезвычайно увлекательно. Со всей шумихой о достижениях в области компьютеров, бесконечных объемах данных и высокой заработной плате не секрет, почему наука о данных является одной из самых популярных профессий 21-го века.

Проблема в том, что первый шаг может быть очень запутанным. Вам нужно понимать всю математику, стоящую за этим? Нужно ли сначала изучать новый язык программирования? Ограниченный бюджет? Предпочитаете учиться по учебнику или вам нужен кто-то, кто визуально пройдется по задаче?

Как человек, которому приходилось проходить эти шаги за последние несколько лет, я составил руководство, чтобы вы начали заниматься наукой о данных (в частности, программированием на Python). Это начинается с основ кодирования на Python и заканчивается книгами и онлайн-курсами, которые углубляются в математику, лежащую в основе машинного обучения. Я прошел эти курсы. Я читал эти книги. Я кодировал вместе с видео. Если вы потратите время на изучение методов и практику своего ремесла, вы будете писать свои программы в кратчайшие сроки.

1а. Изучение SQL

Это 1a, потому что он так же важен, как и 1b, и я считаю, что вы можете сначала изучить любой из них, но понимание SQL значительно облегчит обработку данных в Python.

SQL (или язык структурированных запросов) — это базовый язык, на котором основаны все реляционные базы данных. Большие данные — это другое время и другая тема, но реляционные данные — это то, что все специалисты по данным должны изучить в первую очередь, если они хотят даже подумать о карьере в этой области. SQL имеет несколько разновидностей в зависимости от того, какую программу базы данных вы используете (MySQL отличается от Microsoft SQL Server, который отличается от Postgre SQL и т. д.). Но основы в основном, если не все одинаковые.

Учебный комплект Querying Microsoft SQL Server 2012 Exam 70–461: https://www.amazon.com/Querying-Microsoft-Server-70-461-Training-ebook/dp/B0776VJRBS.
Компания, в которой я работаю, обрабатывает большую часть своих данных в Microsoft SQL Server, поэтому изучение SQL для меня началось с этой книги. Книга ОЧЕНЬ сухая, но чтение ее от корки до корки помогло мне понять, почему структура SQL написана определенным образом, операторы выбора, группировка и агрегирование данных, различные типы соединений, представления, хранимые процедуры и все остальное, что вам нужно. знать об обработке данных.

Курс Khan Academy Intro to SQL: https://www.khanacademy.org/computing/computer-programming/sql.
Он не углубляется в создание представлений и хранимых процедур, но обучает основам обработки данных и объединения различных таблиц данных вместе.

1б. Изучение Python (или R, но я думаю, что Python лучше ¯\_(ツ)_/¯ )

Python и R — два самых популярных языка программирования, которые специалисты по данным используют для обработки своих данных. Сначала мне познакомили с Python, и его также настоятельно рекомендовали, поскольку Python встроен в большее количество программ и приложений, чем R. На самом деле вам решать, какой из них вам больше нравится, но я думаю, что Python очень прост в освоении, и я думаю, что он более ценно знать язык, который более совместим с другими приложениями.

Урок Google Python с Ником Парланте:

Я думал, что эти занятия были невероятно полезными и были моими первыми лекционными видео по изучению python. В наборе около 23 видео, но первые 7 оказались для меня самыми полезными. Видео не посвящены науке о данных, но являются отличным введением в понимание основных концепций Python.

Академия кодов Python
https://www.codecademy.com/learn/learn-python?utm_source=google&utm_medium=adwords&utm_campaign=tm&utm_content=tm_python&utm_term=codecademy%20python&gclid=Cj0KCQjw-o_bBRCOARIsAM5NbSa2lpBo5ADNvb9Ponn28-NbSa2lpBo5ADNvgPonn28- TE4zjS9kijfA48490oaAhArEALw_wcB
Как и в Khan Academy, это пошаговое руководство по основам Python. В отличие от видеороликов на YouTube, это относится к большему количеству функций программирования, используемых в Python, таких как функции и классы.

2. Введение в науку о данных

После того, как вы освоите концепцию изучения Python, следующим шагом будет изучение основ загрузки, обработки и визуализации данных в Python.

Изучение Python для анализа и визуализации данных
https://www.udemy.com/learning-python-for-data-analysis-and-visualization/
Это БОЛЬШОЙ вводный класс взять. Первые несколько разделов охватывают основы Python, введение в ключевые пакеты, такие как Pandas и Numpy, и визуализацию ваших данных с помощью matplotlib. После завершения этого курса вы также получаете сертификат об окончании, который можно разместить в вашем профиле LinkedIn.

Учебный курс Python для науки о данных и машинного обучения
https://www.udemy.com/python-for-data-science-and-machine-learning-bootcamp/
После того, как вы закончите вводный курс, вы сможете пройти следующий курс (который также преподает Хосе Портайла). Этот курс посвящен использованию пакета scikit-learn и функций для запуска базовых алгоритмов машинного обучения в наборах данных. Вы узнаете, как обучать модели, настраивать их и в каких ситуациях использовать модели классификации и регрессии. После того, как вы пройдете этот курс, у вас будет базовое понимание того, чем ежедневно занимается специалист по данным!

Примечание о курсах Udemy: они дешевы, но отлично подходят для изучения нового контента. Многие люди не думают, что они ценны, поскольку другие сайты обычно берут намного больше, но если вы когда-нибудь просто пытаетесь узнать о теме, которую преподает эксперт в этой области, это всегда отличное место, чтобы Посмотрите. Я получил несколько курсов менее чем за 10 долларов, и я никогда не был расстроен качеством своей покупки.

3. Глубокое понимание машинного обучения

Любой может собрать алгоритм машинного обучения, используя заранее написанные пакеты, но на самом деле понимание того, что происходит под капотом, — это совершенно другая история, которая может выделить вас из общей массы. Любая работа по науке о данных требует понимания математики алгоритмов машинного обучения, и если вы не можете объяснить простыми словами, какая математика используется для получения результатов модели, люди не будут доверять вам обработку своих данных.

Coursera: машинное обучение
https://www.coursera.org/learn/machine-learning
Преподает Эндрю Нг, соучредитель Coursera. если самые рейтинговые и самые популярные курсы по машинному обучению, предлагаемые в Интернете. Когда я начал это, это было немного пугающе и требовало некоторых базовых знаний в области исчисления. Этот курс преподается не на Python, а на похожем языке под названием MATLAB. Тем не менее, лекции великолепны, и математика полностью объяснена в деталях. Это также касается нейронных сетей, что является дополнительным бонусом для людей, которые хотят решать более сложные задачи по науке о данных, такие как распознавание изображений. После завершения курса вы получаете сертификат об окончании для своего профиля LinkedIn.

Примечание о курсах Coursera: у меня был хороший и плохой опыт. Курс по машинному обучению был отличным, но я взял курс по большим данным и подумал, что очень сложно отвечать на викторины, мне не помогли, и к концу курса я потерял 50 долларов. Если вы пытаетесь получить больше опыта в классе и хотите сдавать задания для оценки, вам подойдет Coursera. Если вам просто нужно введение в тему, я бы остановился на Udemy.

Учебники по машинному обучению
Для меня учебники стали одним из самых ценных активов, когда я изучал машинное обучение. Я также узнал, что у многих из них PDF-файлы доступны бесплатно. Когда я нахожу тот, который мне нравится, я просто ищу его бесплатный онлайн-файл в формате PDF и загружаю его в приложение Kindle на своем iPad. Это может сэкономить вам пару сотен долларов на Amazon:
— Pyton Data Science Handbook:
https://tanthiamhuat.files.wordpress.com/2018/04/pythondatasciencehandbook.pdf
- Введение в статистическое обучение:
https://www-bcf.usc.edu/~gareth/ISL/ISLR%20First%20Printing.pdf
В этой книге есть примеры на R , но концепции хороши для изучения
 – Машинное обучение Python:
http://books.tarsoit.com/Python%20Machine%20Learning.pdf

Курсы MIT на Youtube

Несколько месяцев назад я наткнулся на полноценные курсы MIT по компьютерным наукам и машинному обучению. Мол, НАСТОЯЩИЕ курсы. Вы можете бесплатно слушать и смотреть вместе с самыми умными учениками в мире. Я настоятельно рекомендую смотреть лекции по темам, в понимании которых вам может понадобиться дополнительная помощь.

Это оно!

Это не так сложно! Определенно требуется много времени, чтобы изучить материал и научиться писать свои собственные программы, но это основные концепции, которые должен знать любой специалист по данным, чтобы добиться успеха в своей работе.

Если вы знаете какие-либо другие полезные курсы, видео на YouTube, книги или подкасты, которые подняли ваши навыки на новый уровень, оставьте комментарий и ссылку на него ниже! Удачного кодирования!