Публикации по теме 'data-preparation'
Особенности проектирования в деталях
Введение
Разработка функций - это процесс подготовки и изменения входных данных для использования в обучении моделей машинного обучения.
С точки зрения разработки функций, следующие типы функций: числовые, категориальные, по дате и времени и смешанные.
Термин "смешанные функции" может вызвать некоторую двусмысленность. Примером смешанного значения переменной является место в билете на самолет: 17B. Здесь 17 - номер ряда, а B - сиденье у окна. Таким образом, можно ввести два..
От числового к категориальному
Три способа бинирования числовых признаков
Объединение числовых признаков в группы на основе интервалов, в которые попадает исходное значение, может улучшить производительность модели. Это может произойти по нескольким причинам. Во-первых, эти бины могут быть определены на основе знаний предметной области, чтобы помочь модели лучше идентифицировать шаблоны, которые она ищет. Во-вторых, данные всегда содержат ошибки измерения, и бинирование может уменьшить влияние этих ошибок...
Логистическая регрессия в Python - как подготовить данные и найти лучшую модель
Я прочитал действительно красивую статью о логистической регрессии, написанную Сьюзен (вы можете прочитать ее здесь ), и решил попробовать обновить ее. Вы можете прочитать / услышать повсюду, что подготовка данных - очень важный процесс для получения наилучшего решения. Что ж, это так, и я собираюсь вам показать. Итак, я использую тот же набор данных из репозитория машинного обучения UCI . Эти данные связаны с кампаниями прямого маркетинга португальского банковского учреждения...
Предварительная обработка данных
Предварительная обработка данных - важная задача. Это метод интеллектуального анализа данных, который преобразует необработанные данные в более понятный, полезный и эффективный формат.
У данных есть лучшее представление. Эта идея станет более ясной и понятной после выполнения предварительной обработки данных.
Почему требуется предварительная обработка данных?
Данные реального мира обычно:
Неполно . Некоторые атрибуты или значения либо оба отсутствуют, либо доступны только..