Приложения науки о данных охватывают широкий спектр дисциплин. Если вы только начинаете свое путешествие по науке о данных или изучаете больше в области науки о данных, знайте, что в большинстве дисциплин есть много инструментов, используемых для их соответствующих работ, как и в науке о данных. Ваш успех зависит от того, насколько вы вооружены инструментами. А работа на различных этапах, таких как формулировка данных, сбор данных, подготовка данных, обучение модели, оценка модели, развертывание модели и мониторинг модели, поможет вам выбрать правильные инструменты для использования на каждом этапе.
Знание статистики
При решении задач очень важно знать статистические методы, используемые в аналитике и машинном обучении. При оценке и решении проблем экономится много времени, поскольку мы используем статистическое переосмысление. Если вы не понимаете статистический метод и алгоритмы, вы не можете знать, как усовершенствовать их в соответствии с вашими решениями.

Определим здесь основные термины.
Язык программирования. Язык программирования – это словарь или набор грамматических правил, с помощью которых компьютер выполняет определенную задачу. Пример Python, R, C++, SQL и т. д.
Библиотека simple означает «пакет кода». Он может иметь десятки и сотни отдельных модулей, способных обеспечивать широкий спектр функциональных возможностей.
Пакет.Пакет — это набор связанных модулей, которые работают вместе для обеспечения определенных функций. Пакет может содержать библиотеку.
IDE: IDE (интегрированная среда разработки) – это программное приложение, объединяющее все функции и инструменты, необходимые для написания или выполнения определенной задачи.
Я рекомендую, чтобы вы поняли некоторые основные ключевые слова, такие как очистка данных, визуализация данных и машинное обучение, прочитали мою статью Переход к науке о данных или задали мне любой вопрос в разделе комментариев.
Наиболее полезные инструменты, с которыми вы сталкиваетесь как специалист по данным, перечислены ниже на соответствующих языках программирования. Они организованы в зависимости от того, как они чаще всего используются в обработке данных, обработке данных, визуализации данных и машинном обучении.
Питон:
Python — это язык общего назначения, используемый специалистами по данным для выполнения операций с данными. Это позволяет командам сотрудничать благодаря простому синтаксису. Это был первый среди языков науки о данных, широко используемых учеными по данным, по результатам исследования Kaggle Data Science & Machine Learning Survey, проведенного в 2020 году. Он поддерживает очистку данных вплоть до машинного обучения. Некоторые из задач по науке о данных с помощью инструментов на Python: обработка данных: Pandas, Numpy, обработка данных:Pandas, Numpy, Scipy, > визуализация данных: Matplotlib(2D), Plotly(3D), Seaborn, Bokeh имашинное обучение: Keras, TensorFlow, Pytorch, Theano, OpenCV.
К популярным средам разработки Python относятся блокноты/лаборатории Anaconda-Jupyter, JetBrains DataSpell, Pycharm и т. д.
SQL
SQL — это язык структурированных запросов, представляющий собой компьютерный язык для хранения, обработки и извлечения данных, хранящихся в реляционной базе данных. Он используется для обработки данных, обработки данных и визуализации данных.
SQL IDE включают: MySQL Workbench, Oracle SQL Developer
R
R — это язык программирования и программная среда для статистического анализа, графического представления и составления отчетов. Он также популярен для обработки и визуализации данных (Ggplot2).
Это позволяет нам использовать методы машинного обучения с такими полезными инструментами, как Caret, DataExplore, randomForest и т. д.
Некоторые популярные IDE: Rstudio, Rattle и Anaconda-Jupyter labs.
Юлия
Julia — это язык высокого уровня с синтаксисом, подобным Python, и быстрым, как C или C++. Он используется для очистки и обработки данных и имеет большую поддержку проектов машинного обучения. Flux — это популярный инструмент (библиотека) для машинного обучения в Julia.
К популярным средам разработки Julia относятся Juno и Anaconda-Jupyter.
Вы можете узнать больше о том, как можно использовать другие языки и инструменты, такие какJava, C/C++, Matlab и Javascript(D3.js), таблицы, чтобы увидеть насколько хорошо они могут одинаково помочь в решении задач науки о данных.
Если вы хотите начать карьеру в области аналитики данных, эти инструменты рекомендуются для обучения. Excel, SQL, PowerBI, Tableau, Python (Pandas, Matplotlib, Numpy).
Что хорошего в этих инструментах, так это то, насколько они увлекательны в путешествии. Не паникуйте из-за тех немногих, с которыми вы можете быть знакомы. Вам не обязательно знать все эти инструменты (Читать это). Просто знайте и используйте важные и лучшие из них для работы. В некоторых случаях у компаний уже есть инструменты, с которыми они знакомы, поэтому настоятельно рекомендуется изучить и попробовать другие полезные инструменты, чтобы оставаться впереди игры.
Пожалуйста, я готов ответить на любые ваши вопросы.
Ждите блога о науке о данных на следующей неделе. И не забывайте, что благодаря вашим лайкам и комментариям я развиваюсь