В этой записной книжке представлен ряд общих и полезных функций библиотеки Scikit-Learn.

Это долго, но называется быстро из-за того, насколько обширна библиотека Scikit-Learn. Чтобы охватить все, требуется [полномасштабная документация](https://scikit-learn.org/stable/user_guide.html), которую, если вы когда-нибудь застрянете, вам следует прочитать.

Что такое Scikit-Learn (sklearn)?

[Scikit-Learn] (https://scikit-learn.org/stable/index.html), также называемая sklearn, представляет собой библиотеку машинного обучения Python с открытым исходным кодом.

Он построен на основе NumPy (библиотека Python для численных вычислений) и Matplotlib (библиотека Python для визуализации данных).

‹img src=""../images/sklearn-6-step-ml-framework-tools-scikit-learn-highlight.png" alt="6-шаговая структура машинного обучения, а также инструменты, которые вы можете использовать для каждого шага" ширина =”700/›

Почему Scikit-Learn?

Хотя область машинного обучения обширна, основная цель — найти закономерности в данных, а затем использовать эти закономерности для прогнозирования.

И есть определенные категории, в которые попадает большинство проблем.

Если вы пытаетесь создать модель машинного обучения, чтобы предсказать, является ли электронное письмо спамом или нет, вы работаете над проблемой классификации (является ли что-то чем-то или чем-то другим).

Если вы пытаетесь создать модель машинного обучения для прогнозирования цен на дома с учетом их характеристик, вы работаете над проблемой регрессии (предсказывая число).

Как только вы узнаете, над какой проблемой вы работаете, вы также предпримете аналогичные шаги для каждой из них. Такие шаги, как разделение данных на разные наборы, один для обучения алгоритмов машинного обучения, а другой для их тестирования.
Выбор модели машинного обучения, а затем оценка того, научилась ли ваша модель чему-либо.

Scikit-Learn предлагает реализации Python для выполнения всех этих задач. Избавляет вас от необходимости создавать их с нуля.

Что охватывает этот блокнот?

Библиотека Scikit-Learn очень функциональна. Однако учить все наизусть не обязательно. Вместо этого в этой записной книжке рассматриваются некоторые из основных вариантов использования библиотеки.

В частности, мы рассмотрим:

‹img src=""../images/sklearn-workflow-title.png" alt="6-шаговый рабочий процесс scikit-learn"/›

0. Сквозной рабочий план Scikit-Learn
1. Подготовка данных
2. Выбор правильного оценщика/аглоритма/модели машинного обучения для вашей задачи
3. Подгонка выбранного модель машинного обучения к данным и использование ее для прогнозирования
4. Оценка модели машинного обучения
5. Улучшение прогнозов с помощью экспериментов (настройка гиперпараметров)
6. Сохранение и загрузка предварительно обученной модели< br /> 7. Собираем все вместе в пайплайн

**Примечание.** все шаги в этой записной книжке сосредоточены на **контролируемом обучении** (с данными и метками).

Пройдя его, вы получите базовые знания Scikit-Learn, необходимые для дальнейшего продвижения вперед.

Где я могу получить помощь?
Если вы застряли или думаете о чем-то, что вы хотели бы сделать, чего нет в этом блокноте, не бойтесь!

Рекомендуемые действия:
1. **Попробуйте** — Поскольку Scikit-Learn был разработан с учетом удобства использования, ваш первый шаг должен состоять в том, чтобы использовать то, что вы знаете, и попытаться найти ответ на свой собственный вопрос (неправильный ответ является частью процесс). Если сомневаетесь, запустите свой код.
2. **Нажмите SHIFT+TAB** — см., чтобы увидеть строку документации функции (информацию о том, что делает функция), нажав **SHIFT + TAB** внутри нее. Это хорошая привычка для развития. Это улучшит ваши исследовательские навыки и даст вам лучшее представление о библиотеке.
3. **Поиск**. Если попытка самостоятельно не сработала, поскольку кто-то, возможно, пытался сделать что-то подобное, попробуйте выполнить поиск по вашей проблеме. Скорее всего, вы окажетесь в одном из двух мест:
* [Документация/руководство пользователя Scikit-Learn](https://scikit-learn.org/stable/user_guide.html) — самый обширный ресурс. вы найдете информацию для Scikit-Learn.
* [Stack Overflow](https://stackoverflow.com/) — это центр вопросов и ответов разработчиков, он полон вопросов и ответов по различным проблемам по всему миру. широкий спектр тем по разработке программного обеспечения, и есть вероятность, что одна из них связана с вашей проблемой.

Примером поиска решения Scikit-Learn может быть:

› «как настроить гиперпараметры модели sklearn»

Поиск в Google приводит к документации Scikit-Learn для функции GridSearchCV: http://scikit-learn.org/stable/modules/grid_search.html

Следующие шаги здесь — прочитать документацию, проверить примеры и посмотреть, соответствуют ли они проблеме, которую вы пытаетесь решить. Если они это сделают, **перепишите код** в соответствии с вашими потребностями, запустите его и посмотрите, каковы результаты.

4. **Обратитесь за помощью**. Если вы выполнили 3 шага, описанных выше, но все еще застряли, вы можете задать свой вопрос на [Stack Overflow](https://www.stackoverflow .com). Будьте как можно более конкретными и предоставьте подробную информацию о том, что вы пробовали.

Помните, что вам не нужно с самого начала выучивать все функции наизусть.

Самое главное — постоянно спрашивать себя: «Что я пытаюсь сделать с данными?».

Начните с ответа на этот вопрос, а затем попрактикуйтесь в поиске кода, который это делает.

Давайте начнем.