Это введение в молодую и быстрорастущую область интеллектуального анализа данных (также известную как обнаружение знаний из данных или сокращенно KDD). Основное внимание уделяется фундаментальным концепциям и методам интеллектуального анализа данных для обнаружения интересных закономерностей из данных в различных приложениях.

Мир, который мы видим сегодня, имеет автоматизированные инструменты сбора данных, системы баз данных, всемирную паутину и компьютеризированное общество. Это приводит к взрывному росту объема данных от терабайтов до петабайтов.

Мы тонем в океане данных, но жаждем знаний.

Огромная скорость, объем и разнообразие данных — вот что нам предоставила наша новая эпоха. У нас есть более дешевые технологии, мобильные вычисления, социальные сети, облачные вычисления, которые вызвали этот шторм данных.

Это причины, по которым традиционные методы исчезают, и нам нужны новые методы, такие как интеллектуальный анализ данных, для обработки данных новой эры.

Что такое интеллектуальный анализ данных (DM)?

Интеллектуальный анализ данных — это итеративный и интерактивный процесс обнаружения новых, достоверных, полезных и понятных шаблонов и моделей из массивных источников данных.

Что такое открытие знаний (KD)?

Общий процесс получения знаний из массивных баз данных называется KD. Это более сложный процесс, чем ДМ. DM — это этап KD, который занимается идентификацией закономерностей в данных.

Давайте разберем процесс KD.

Шаг 1. Изучение предметной области

У нас должны быть предварительные знания об областях применения, в которых мы собираемся открыть для себя эти знания. Замечено, что наличие предварительных знаний помогает лучшему пониманию данных.

Шаг 2. Очистка данных

После того, как мы получили данные из складов, нам нужно удалить шум и несогласованные данные. В процессе поиска знаний может потребоваться до 60% усилий.

Шаг 3. Выбор данных

Мы создаем набор данных, в котором данные, относящиеся к задаче анализа, извлекаются из базы данных.

Шаг 4. Сокращение и преобразование данных

Здесь мы преобразуем и консолидируем данные в формы, подходящие для интеллектуального анализа данных, выполняя операции суммирования или агрегирования. Мы находим полезные функции, уменьшаем размерность или переменную и используем инвариантное представление.

Шаг 5. Интеллектуальный анализ данных

Это важный процесс, в котором применяются интеллектуальные методы для извлечения шаблонов данных. Методами могут быть обобщение, классификация, регрессия, ассоциация или кластеризация.

Шаг 6. Оценка шаблона

Мы идентифицируем и выделяем действительно интересные шаблоны, представляющие знания, на основе показателей интереса.

Шаг 7. Презентация знаний

Методы визуализации и представления знаний используются для представления добытых знаний пользователям или заинтересованным сторонам.

Какие виды данных можно добывать?

DM можно применять к любому типу данных, если эти данные имеют смысл для целевого приложения. Наиболее распространенными формами данных для приложений интеллектуального анализа данных являются данные базы данных, данные хранилища данных и транзакционные данные.

Данные базы данных

Система баз данных, также называемая системой управления базами данных (СУБД), состоит из набора взаимосвязанных данных, называемых базой данных.

Реляционная база данных – это набор таблиц, каждой из которых присвоено уникальное имя. Каждая таблица состоит из набора атрибутов, содержащих большие наборы кортежей. Каждый кортеж в реляционной таблице представляет собой объект, идентифицируемый уникальным ключом и описываемый набором значений атрибутов.

Хранилища данных

Предположим, успешная международная компания имеет филиалы по всему миру. Каждый филиал имеет свой набор баз данных. Президент компании попросил вас предоставить анализ продаж компании по типам товаров в филиалах за третий квартал.

Чтобы облегчить принятие решений, данные в хранилище данных организованы по основным темам.

Транзакционные данные

Как правило, каждая запись в базе данных транзакций фиксирует транзакцию, такую ​​как покупка клиента, бронирование рейса или клики пользователя на веб-странице. Транзакция обычно включает уникальный идентификационный номер транзакции (идентификатор транса) и список предметов, входящих в транзакцию, например предметов, приобретенных в ходе транзакции.

Используемые методы?

Как область, в значительной степени управляемая приложениями, интеллектуальный анализ данных включает в себя множество методов из других областей, таких как:

Статистика

Статистика изучает сбор, анализ, интерпретацию или объяснение, а также представление данных и имеет неотъемлемую связь с DM. Он включает в себя изучение описательной статистики, логической или прогностической статистики и статистической проверки гипотез.

Машинное обучение

Машинное обучение исследует, как компьютеры могут обучаться (или повышать свою производительность) на основе данных. Как мы все знаем, оно включает в себя обучение с учителем, обучение без учителя и обучение с подкреплением.

Основные проблемы в DM?

Интеллектуальный анализ данных — это динамичная и быстрорастущая область с большими преимуществами. Многие из этих вопросов были в определенной степени решены в недавних исследованиях и разработках по интеллектуальному анализу данных и теперь считаются требованиями интеллектуального анализа данных, другие все еще находятся на стадии исследования.

Методология майнинга

DM и KD включают добычу различных и новых видов знаний в многомерном пространстве, обрабатывая шум, неопределенность и неполноту данных. Это кажется проблемой двух линий, но она более сложна, чем мы можем себе представить. Поэтому они все еще находятся в стадии разработки.

Кроме того, DM — это междисциплинарная работа, поэтому для решения проблемы нам необходимо предварительное знание многих из них.

Взаимодействие с пользователем

Пользователь играет важную роль в процессе интеллектуального анализа данных. Интересные области исследований включают в себя то, как взаимодействовать с системой интеллектуального анализа данных, как включить фоновые знания пользователя в интеллектуальный анализ данных и как визуализировать и понимать результаты интеллектуального анализа данных.

Это также включает яркое и гибкое представление добытых данных, чтобы обнаруженные знания могли быть легко поняты и непосредственно использованы людьми.

Эффективность и масштабируемость

При сравнении алгоритмов интеллектуального анализа данных всегда учитываются эффективность и масштабируемость. Поскольку объемы данных продолжают увеличиваться, эти два фактора становятся особенно важными.

Давайте ценить…

DM и KD — это обширные способы понимания данных и создания шаблонов, которые могут использоваться людьми. Это тоже итеративный процесс. Нам нужно много раз подумать, применить и оценить, чтобы узнать то, чего мы не знаем.