Вы хотите начать с машинного обучения с библиотекой sklearn или вас беспокоит обучение каждого алгоритма из библиотеки sklearn, чтобы проверить, какой из них даст вам лучшую точность и с минимальными затратами времени?
Вот решение для вас - пакет sk_algo_assist.
Для новичков просто дайте pandas dataframe и столбец, по которому нужно сделать прогноз, расслабьтесь, пакет очистит данные и предоставит вам алгоритмы, обеспечивающие наилучшую точность. Ура !!! вы изучили основы машинного обучения, вы обучили модель и сделали прогнозы, чтобы получить точность.
Для специалистов по данным этот пакет поможет вам сравнить различные классы алгоритмов классификации или регрессии, представленные в пакете sklearn. Пакет определит, что набор данных относится к типу классификации или регрессии, и запустит набор из примерно 10 известных алгоритмов из библиотеки sklearn такого типа. Пакет будет отсортировать алгоритмы с точностью в порядке убывания или ошибкой в порядке возрастания, а также с временем, затраченным на обучение в качестве разрешения конфликтов. Вы также можете указать набор алгоритмов для сравнения и метрики, по которым должны выполняться сортировка и сравнение, и а многое другое !!! Проверьте это, просто установив пакет из pip, следуя инструкциям ниже:
pip install sk_algo_assist
Это установит пакет в вашу систему вместе с зависимостями. Чтобы проверить установку, перейдите в консоль Python и введите следующее:
>>> import sk_algo_assist
После того, как это будет импортировано без каких-либо ошибок, все готово к работе. Вот пример использования пакета с образцом набора данных iris (образец набора данных классификации).
from sklearn import datasets import pandas as pd from sk_algo_assist import compare_algos iris = datasets.load_iris() iris_df = pd.DataFrame(iris.data, columns=iris.feature_names) iris_df['target'] = pd.Series(iris.target) compare_algos(iris_df,'target')
Да !!! это так просто, и результаты выглядят так:
<class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 5 columns): sepal length (cm) 150 non-null float64 sepal width (cm) 150 non-null float64 petal length (cm) 150 non-null float64 petal width (cm) 150 non-null float64 target 150 non-null int32 dtypes: float64(4), int32(1) memory usage: 5.4 KB None RandomForestClassifier has completed training ExtraTreesClassifier has completed training LogisticRegression has completed training DecisionTreeClassifier has completed training SGDClassifier has completed training SVC has completed training GradientBoostingClassifier has completed training KNeighborsClassifier has completed training GaussianNB has completed training AdaBoostClassifier has completed training ------------------------------ Algorithm Name accuracy_score Time Taken 1 RandomForestClassifier 1.0000 0.0090 2 ExtraTreesClassifier 1.0000 0.0080 3 DecisionTreeClassifier 1.0000 0.0301 4 SVC 1.0000 0.0010 5 GradientBoostingClassifier 1.0000 0.0040 6 KNeighborsClassifier 1.0000 0.0010 7 AdaBoostClassifier 1.0000 0.0912 8 LogisticRegression 0.9783 0.0020 9 GaussianNB 0.9783 0.0000 10 SGDClassifier 0.6957 0.0411
Функция compare_algos разделит данные на 70% обучающий набор и 30% набор тестов, установленных по умолчанию, и запускает все алгоритмы такого рода. Специалист по данным также может выбрать работу с несколькими алгоритмами и показателями, которые определены в sklearn. Синтаксис для этого и подробная документация о том, как выполняется очистка, доступны на GitHub, перейдите по ссылке:
Если вам нравится этот пакет и он вам полезен, пожалуйста, поставьте мне звезду на GitHub и порекомендуйте его своим друзьям, которые хотят начать с машинного обучения, и коллегам по анализу данных.
По любым вопросам, сообщениям об ошибках или запросам функций свяжитесь со мной по адресу [email protected].
Полезные ссылки: