Наука о данных, Мнение
Как стать специалистом по анализу данных? Пошаговый путь
Стать специалистом по данным - это относительно новая карьера, которая объединяет статистику, бизнес-логику и знания программирования. Специалисту по данным, а не только инженеру по машинному обучению, особенно необходимо всестороннее понимание алгебры, статистики, машинного обучения и алгоритмов глубокого обучения. Я хочу предложить путь, по которому вы можете пройти за 3 месяца, чтобы подготовиться к собеседованию с аналитиком данных. Этот путь начинается с простых шагов и завершается важной частью поля. Эта статья написана в 2020 году.
Шаг 1. Во-первых, вы должны понимать, что если вы хотите работать в этой области. Кодировать алгоритм машинного обучения с использованием популярных библиотек Python - это весело, но наука о данных - это не только это. Если вы хотите стать старшим специалистом по данным, вам необходимо детально знать теорию многих алгоритмов и выполнять их вычисления. Итак, в качестве первого шага, прежде чем писать код, вы можете начать с видео Эндрю Нг на YouTube о машинном обучении. Найдите его здесь. Если вы закончили этот курс, но поле вам по-прежнему нравится, переходите к шагу 2.
Шаг 2: На этом шаге у вас есть основная информация о машинном обучении, и теперь вы можете приступить к программированию. Есть так много ресурсов для практики кодирования. Неважно, какой курс (видео или тексты) вы выберете, потому что все они используют одни и те же библиотеки, и на каждом этапе кодирования, который вы изучаете, вы должны практиковать его, используя соревнования K aggle. Убедитесь, что вы уделяете достаточно времени тренировкам на каждом соревновании. Чем больше вы будете стараться, тем больше у вас опыта на следующих этапах.
Вам также следует попрактиковаться в очистке данных и визуализации данных на этих соревнованиях. Как специалист по данным, вы тратите 50% своего времени только на эти две части. Обязательно владейте S eaborn, Mathplotlib, Pandas и NumPy, а также популярными библиотеками S cikit learn, подобными ML. (они популярны в 2020 году, и в будущем тенденция может измениться).
Шаг 3. Теперь у вас есть базовые знания теоретической и практической части науки о данных. Пора почитать алгебру. В книге Goodfellow по глубокому обучению есть хорошая глава об алгебре, которая вам нужна в машинном обучении.
Вот несколько концепций, о которых вам следует узнать:
- Интуиция собственных значений и собственных векторов в геометрии и алгебре
- Геометрическая интуиция определителя
- Матричное линейное преобразование и матричная обратная интуиция
- Разложение по сингулярным значениям
- PCA
На этом Youtube-канале есть интуитивно понятный сериал об основах алгебры.
ِِ Для лучшего понимания вы можете использовать первые пять занятий этого курса MIT: C ourse.
Вы также должны иметь базовые знания статистики. Некоторые задачи, такие как статистические тесты и p-значение или оценка максимального правдоподобия ... настолько важны, что интервьюеры всегда спрашивают о них.
Вы должны не только научиться делать математику, но также вы должны изучить все интуитивные представления об этом и найти некоторые образцы в реальной жизни. Например, используя статистические тесты в реальной жизни или максимальное правдоподобие в естественных распределениях.
Шаг 4. Если вы полностью выполните последние шаги, вы готовы углубиться в ML. Эндрю Нг изучает в Стэнфордском университете курс продвинутого машинного обучения, в котором вы можете найти математические детали того, что вы узнали на первых шагах. Найдите заметки здесь. Убедитесь, что вы понимаете математику каждого предмета.
Шаг 5: Одна из лучших практических книг по машинному обучению в 2020 году - Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow, 2-е издание. Прочтите первые десять глав и постарайтесь выполнять упражнения как можно больше. Он показывает каждое подробное использование библиотеки scikit learn и демонстрирует проект сквозного машинного обучения. Здесь вы можете найти различные практики.
Теперь вы достаточно хороши, чтобы начать собственный проект машинного обучения. Вы всегда должны читать и проверять свои навыки, которые помогут вам улучшить свои знания. Пришло время глубокого обучения.
Шаг 6. Глубокое обучение - это так просто, и за этим стоит простая математика. Просто начнем с его истории. Прочтите о модели Гильберта, нейронных сетях Персептрона, Адалина и Хопфилда и их эволюции.
После этого вы можете использовать курс Эндрю Нг по глубокому обучению. Опять же, убедитесь, что вы понимаете каждый предмет. Все они так важны. Конечно, вы также можете найти книгу «Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow» также полезной в глубоком обучении. В нем показано, как работают API-интерфейсы Keras, и описаны некоторые дополнительные возможности их использования. Вам не нужно изучать низкоуровневые API-интерфейсы тензорного потока, за исключением случаев, когда вам это нужно.
Шаг 7. У вас все отлично. Для выполнения этих шагов требуется от 3 до 4 месяцев, и на этом этапе вам просто нужно практиковаться и практиковаться.

Возможно, я напишу пост о сложных вопросах на собеседовании, которые помогут вам оценить себя. Так что следите, если вам интересно.
Дополнительные шаги. В этой области есть много возможностей. Прочтите «Mining of Massive Datasets». Потоковый анализ данных, алгоритм обработки больших данных и многие другие темы, такие как наборы часто используемых элементов, системы рекомендаций, анализ графиков социальных сетей, реклама в Интернете….
Изучение Spark и знание Hadoop могут помочь вам в работе. Многим компаниям нужна Spark и инфраструктура больших данных, поскольку у них есть крупномасштабные данные. Вы не можете использовать там собственные алгоритмы машинного обучения. PyTorch, tenor-flow и другие фреймворки полезны, если вы научитесь.