Вы хотите начать с машинного обучения с библиотекой sklearn или вас беспокоит обучение каждого алгоритма из библиотеки sklearn, чтобы проверить, какой из них даст вам лучшую точность и с минимальными затратами времени?

Вот решение для вас - пакет sk_algo_assist.

Для новичков просто дайте pandas dataframe и столбец, по которому нужно сделать прогноз, расслабьтесь, пакет очистит данные и предоставит вам алгоритмы, обеспечивающие наилучшую точность. Ура !!! вы изучили основы машинного обучения, вы обучили модель и сделали прогнозы, чтобы получить точность.

Для специалистов по данным этот пакет поможет вам сравнить различные классы алгоритмов классификации или регрессии, представленные в пакете sklearn. Пакет определит, что набор данных относится к типу классификации или регрессии, и запустит набор из примерно 10 известных алгоритмов из библиотеки sklearn такого типа. Пакет будет отсортировать алгоритмы с точностью в порядке убывания или ошибкой в ​​порядке возрастания, а также с временем, затраченным на обучение в качестве разрешения конфликтов. Вы также можете указать набор алгоритмов для сравнения и метрики, по которым должны выполняться сортировка и сравнение, и а многое другое !!! Проверьте это, просто установив пакет из pip, следуя инструкциям ниже:

pip install sk_algo_assist

Это установит пакет в вашу систему вместе с зависимостями. Чтобы проверить установку, перейдите в консоль Python и введите следующее:

>>> import sk_algo_assist

После того, как это будет импортировано без каких-либо ошибок, все готово к работе. Вот пример использования пакета с образцом набора данных iris (образец набора данных классификации).

from sklearn import datasets
import pandas as pd
from sk_algo_assist import compare_algos

iris = datasets.load_iris()

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['target'] = pd.Series(iris.target)

compare_algos(iris_df,'target')

Да !!! это так просто, и результаты выглядят так:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
target               150 non-null int32
dtypes: float64(4), int32(1)
memory usage: 5.4 KB
None
RandomForestClassifier  has completed training
ExtraTreesClassifier  has completed training
LogisticRegression  has completed training
DecisionTreeClassifier  has completed training
SGDClassifier  has completed training
SVC  has completed training
GradientBoostingClassifier  has completed training
KNeighborsClassifier  has completed training
GaussianNB  has completed training
AdaBoostClassifier  has completed training
------------------------------
                Algorithm Name  accuracy_score  Time Taken
1       RandomForestClassifier          1.0000      0.0090
2         ExtraTreesClassifier          1.0000      0.0080
3       DecisionTreeClassifier          1.0000      0.0301
4                          SVC          1.0000      0.0010
5   GradientBoostingClassifier          1.0000      0.0040
6         KNeighborsClassifier          1.0000      0.0010
7           AdaBoostClassifier          1.0000      0.0912
8           LogisticRegression          0.9783      0.0020
9                   GaussianNB          0.9783      0.0000
10               SGDClassifier          0.6957      0.0411

Функция compare_algos разделит данные на 70% обучающий набор и 30% набор тестов, установленных по умолчанию, и запускает все алгоритмы такого рода. Специалист по данным также может выбрать работу с несколькими алгоритмами и показателями, которые определены в sklearn. Синтаксис для этого и подробная документация о том, как выполняется очистка, доступны на GitHub, перейдите по ссылке:



Если вам нравится этот пакет и он вам полезен, пожалуйста, поставьте мне звезду на GitHub и порекомендуйте его своим друзьям, которые хотят начать с машинного обучения, и коллегам по анализу данных.

По любым вопросам, сообщениям об ошибках или запросам функций свяжитесь со мной по адресу [email protected].

Полезные ссылки:

  1. Https://libraries.io/pypi/sk-algo-assist
  2. Https://github.com/GouthamPeri/sk_algo_assist
  3. Https://scikit-learn.org/stable/documentation.html
  4. Https://pandas.pydata.org/pandas-docs/stable/