Публикации по теме 'sklearn'


Как разделить данные тренировки и тестирования
Понятия, объясненные для новичков! Машинное обучение - новая горячая область науки о данных. Для поиска решений многих проблем можно использовать всевозможные алгоритмы машинного обучения, начиная от анализа настроений и прогнозирования цен на акции и заканчивая классификацией болезней с использованием изображений мозга. Данные, которые передаются в алгоритм, важны для формирования точности результата. В машинном обучении крайне важно иметь данные для обучения и тестирования, которые..

Многообразное обучение для нелинейного уменьшения размерности
Хотя мы видели, что для уменьшения линейной размерности у нас есть методы уменьшения размерности, такие как PCA, SVD и добавочное обучение; мы с нетерпением ждем возможности сделать линейные модели более общими по отношению к нелинейным наборам данных. Эти методы могут отображать нелинейное вложение из данных высокой размерности (которые лежат на многообразии) в пространство низкой размерности, создавая при этом необходимые условия для возврата исходной конструкции высокой размерности. Мы..

Что такое ридж-регрессия
Представьте, что у вас есть волшебная ручка, которая может рисовать на графике прямые линии. Ваша цель — нарисовать линию, которая наилучшим образом соответствует множеству точек, разбросанных по графику. Но есть одна загвоздка: вам нужно, чтобы линия не была слишком крутой или слишком шаткой. Ридж-регрессия похожа на волшебный инструмент, который помогает вам правильно провести линию. Это добавляет особое правило к процессу рисования. Это правило предписывает волшебному перу..

Голые 90 дней Challenge для :
День 3: Питон Python — популярный язык программирования, широко используемый в области науки о данных. В этом модуле мы рассмотрим основы языка программирования Python и покажем вам, как использовать Python для анализа данных, машинного обучения и многого другого. Некоторые из важных подтем, которые мы рассмотрим в этом модуле, включают: Типы данных и переменные. В Python мы можем использовать различные типы данных, такие как целые числа, числа с плавающей запятой, строки, списки,..

Не переобучать:
Бизнес-проблема: Переоснащение - распространенная проблема с моделями машинного обучения, особенно когда у нас всего несколько точек данных для обучения. Чем меньше количество точек данных поезда, тем менее способна наша модель обобщать невидимые или тестовые точки данных. Следовательно, нам нужно быть осторожными во время процесса обучения и посмотреть, как работает наша модель. Получив точность около 90% на данных поезда, мы не можем предположить, что наша модель будет работать так..

конвейеры scikit-learn
Предварительно обработайте данные правильно Предварительная обработка данных — это то, с чем вы, возможно, уже знакомы. Обычно мы поступаем следующим образом: Оценка качества данных  – Поиск пропущенных значений  – Поиск выбросов  – Поиск несоответствия типов данных в функциях Преобразование данных  – Выбор функций/выборка  – Агрегация данных  – Нормализация данных Feature Encoding -Label Encoding для порядковых переменных -One Hot Encoding для номинальных переменных..

Книжная модель рекомендации - машинное обучение.
Основная идея Основная идея использования набора данных Goodreads состоит в том, чтобы получить четкое представление о взаимосвязях между множеством атрибутов, которые может иметь книга, такими как совокупный рейтинг каждой книги, тенденции авторов на протяжении многих лет и книги на многих языках. Имея более ста тысяч оценок, есть книги, которые становятся популярными с каждым днем. Мы всегда считали, что книги волшебных персонажей, кажется, содержат, и с этим блокнотом мы..