Предварительная обработка данных

Предварительная обработка данных - важная задача. Это метод интеллектуального анализа данных, который преобразует необработанные данные в более понятный, полезный и эффективный формат.

У данных есть лучшее представление. Эта идея станет более ясной и понятной после выполнения предварительной обработки данных.

Почему требуется предварительная обработка данных?

Данные реального мира обычно:

Неполно. Некоторые атрибуты или значения либо оба отсутствуют, либо доступны только агрегированные данные.

Шумно: данные содержат ошибки или выбросы.

Несоответствие: данные содержат различия в кодах, названиях и т. д.

Задачи по предварительной обработке данных

Очистка данных. Это также называется очисткой. Эта задача включает в себя заполнение пропущенных значений, сглаживание или удаление зашумленных данных и выбросов, а также устранение несоответствий.
Интеграция данных: Эта задача включает интеграцию данных из нескольких источников, таких как базы данных (реляционные и нереляционные), кубы данных, файлы и т. д. Источники данных могут быть однородными или разнородными. Данные, полученные из источников, могут быть структурированными, неструктурированными или частично структурированными по формату.
Преобразование данных. Это включает в себя нормализацию и агрегирование данных в соответствии с потребностями набора данных.
Сокращение объема данных. На этом этапе объем данных сокращается. Количество записей или количество атрибутов или измерений можно уменьшить. Сокращение выполняется с учетом того, что сокращенные данные должны давать те же результаты, что и исходные данные.
Дискретность данных: рассматривается как часть сокращения объема данных. Числовые атрибуты заменяются номинальными.

Очистка данных

Процесс очистки данных обнаруживает и удаляет ошибки и несоответствия, присутствующие в данных, и улучшает их качество. Проблемы с качеством данных возникают из-за орфографических ошибок при вводе данных, отсутствия значений или любых других недопустимых данных. По сути, «грязные» данные преобразуются в чистые. «Грязные» данные не дают точных и хороших результатов. Данные мусора выдают мусор. Поэтому очень важно обрабатывать эти данные. На этом этапе профессионалы тратят много времени.

Причины «грязных» или «нечистых» данных

Фиктивные значения
Отсутствие данных
Нарушение бизнес-правил
Проблемы интеграции данных
Противоречивые данные
Неправильное использование адресной строки
Повторно используемые первичные ключи
Неуникальные идентификаторы

Что делать для очистки данных?

Обработка отсутствующих значений
Обработка шума и выбросов
Удалить ненужные данные

Обработка отсутствующих значений

Отсутствующие значения нельзя просмотреть в наборе данных. С ними нужно обращаться. Кроме того, многие модели не принимают отсутствующие значения. Существует несколько методов обработки недостающих данных, выбор правильного имеет первостепенное значение. Выбор метода работы с недостающими данными зависит от предметной области и цели процесса интеллектуального анализа данных. Существуют различные способы обработки недостающих данных:

Игнорировать строку данных: этот метод рекомендуется для записей, в которых отсутствует максимальный объем данных, что делает запись бессмысленной. Этого метода обычно избегают там, где отсутствует только меньшее количество значений атрибутов. Если все строки с пропущенными значениями игнорируются, т. Е. Удаляются, это приведет к снижению производительности.
Введите недостающие значения вручную. Это очень трудоемкий метод и поэтому не применим почти для всех сценариев.
Используйте глобальную константу для заполнения отсутствующих значений: глобальную константу, например «NA» или 0, можно использовать для заполнения всех отсутствующих данных. Этот метод используется, когда пропущенные значения трудно предсказать.
Использовать среднее или медианное значение атрибута: Среднее или медианное значение атрибута используется для заполнения отсутствующего значения.
Использовать метод прямого или обратного заполнения: здесь либо предыдущее, либо следующее значение используется для заполнения отсутствующего значения. Также можно использовать среднее значение предыдущих и последовательных значений.
Используйте алгоритм интеллектуального анализа данных, чтобы предсказать наиболее вероятное значение

Обработка шума и выбросов

Шум в данных может быть вызван ошибкой при сборе данных, ошибкой при вводе данных или ошибками передачи данных и т. Д. Неизвестная кодировка (пример: семейное положение - Q), значения вне диапазона (пример: возраст - -10), Несогласованные данные (пример: DoB - 4 октября 1999 г., возраст - 50), несовместимые форматы (пример: DoJ - 13 января 2000 г., DoL - 10/10/2016) и т. Д. - это разные типы шума и выбросов.

С шумом можно справиться с помощью биннинга. В этом методе отсортированные данные помещаются в ячейки или корзины. Бины могут быть созданы путем разделения по равной ширине (расстояние) или равной глубине (частота). К этим ячейкам можно применить сглаживание. Сглаживание может осуществляться по среднему значению интервала, медианному интервалу или границам интервала.

Выбросы можно сгладить, используя группирование, а затем сглаживая его. Их можно обнаружить с помощью визуального анализа или коробчатых диаграмм. Кластеризация может использоваться для идентификации групп данных с выбросами. Обнаруженные выбросы могут быть сглажены или удалены.

Удалить ненужные данные

Нежелательные данные - это повторяющиеся или нерелевантные данные. Сбор данных из разных источников с последующей интеграцией может привести к дублированию данных, если не будет выполнен эффективно. Эти избыточные данные следует удалить, поскольку они бесполезны и только увеличивают объем данных и время на обучение модели. Кроме того, из-за избыточных записей модель может не обеспечивать точные результаты, поскольку повторяющиеся данные мешают процессу анализа, придавая большее значение повторяющимся значениям.

Интеграция данных

На этом этапе подготавливается согласованный источник данных. Это достигается путем сбора и интеграции данных из нескольких источников, таких как базы данных, устаревшие системы, плоские файлы, кубы данных и т. Д.

Данные похожи на мусор. Вам лучше знать, что вы собираетесь с ним делать, прежде чем собирать его. - Марк Твен

Проблемы интеграции данных

Интеграция схемы: метаданные (т. е. схема) из разных источников могут быть несовместимы. Это приводит к проблеме идентификации сущности . Пример: рассмотрим два источника данных R и S. Идентификатор клиента в R представлен как cust_id, а в S представлен как c_id. Они означают одно и то же, представляют одно и то же, но имеют разные названия, что приводит к проблемам интеграции. Их обнаружение и устранение очень важно для согласованного источника данных.
Конфликты значений данных: значения, показатели или представления одних и тех же данных могут отличаться для одного и того же объекта реального мира в разных источниках данных. Это приводит к различным представлениям одних и тех же данных, разным масштабам и т. Д. Пример: Вес в источнике данных R представлен в килограммах, а в источнике S - в граммах. Чтобы решить эту проблему, представления данных должны быть согласованными и преобразования должны выполняться соответствующим образом.
Избыточные данные: повторяющиеся атрибуты или кортежи могут возникать в результате интеграции данных из различных источников. Это также может привести к несоответствиям. Эти избыточности или несоответствия можно уменьшить путем тщательной интеграции данных из нескольких источников. Это поможет повысить скорость и качество майнинга. Кроме того, для обнаружения избыточных данных может выполняться корреляционный анализ.

Сжатие данных

Если данные очень большие, выполняется сокращение данных. Иногда это также выполняется для поиска наиболее подходящего подмножества атрибутов из большого количества атрибутов. Это называется уменьшением размерности. Сокращение данных также включает уменьшение количества значений атрибутов и / или количества кортежей. Различные методы обработки данных:

Агрегирование куба данных. В этом методе данные сокращаются путем применения таких операций OLAP, как фрагмент, игра в кости или сведение. Он использует наименьший уровень, необходимый для решения проблемы.
Уменьшение размерности. Атрибуты данных или размеры уменьшаются. Не все атрибуты требуются для интеллектуального анализа данных. Наиболее подходящее подмножество атрибутов выбирается с помощью таких методов, как прямой выбор, обратное исключение, индукция дерева решений или комбинация прямого выбора и обратного исключения.
Сжатие данных: в этом методе. большие объемы данных сжимаются, т. е. уменьшается количество бит, используемых для хранения данных. Это можно сделать, используя сжатие с потерями или без потерь. При сжатии с потерями качество данных ухудшается из-за большего сжатия. При сжатии без потерь качество данных не ухудшается из-за более высокого уровня сжатия.
Уменьшение количества. Этот метод уменьшает объем данных за счет выбора более мелких форм для представления данных. Уменьшение численности может быть выполнено с помощью гистограмм, кластеризации или выборки данных. Уменьшение количества данных необходимо, поскольку обработка всего набора данных требует больших затрат времени и средств.