Изучение алгоритмов интеллектуального анализа данных не для слабонервных, а литература в Интернете делает его еще более пугающим. Кажется, что большая часть информации по интеллектуальному анализу данных в Интернете написана докторами наук для других докторов наук. Ранее я опубликовал простую статью Что, почему, где интеллектуальный анализ данных», и она была отлично принята. Спасибо.

Вот следующее подробное описание десяти лучших алгоритмов интеллектуального анализа данных, которые, кажется, привлекают много внимания и объема поиска Google. В духе демистификации этих алгоритмов я пытался использовать повседневный язык везде, где мог, вместо технического языка. Я не хочу извиняться за это, но я хочу, чтобы «пуристы» знали об этом сознательном выборе. Эта статья предназначена для «остальных из нас», которые просто хотят поцарапать поверхность, чтобы нанести достаточно вреда, но не заинтересованы в погружении глубоко (пока).

Один из первых вопросов, которые люди задают о том или ином алгоритме, заключается в том, является ли он контролируемым или неконтролируемым? Вот что означают эти термины.

Обучение с учителем — алгоритмы, которым для обучения требуется набор данных для обучения.

Обучение без учителя – алгоритмы, для правильной работы которых не требуются никакие обучающие данные.

Еще один ключевой вопрос, который они задают: «Какой тип алгоритма основан на том, как он работает»? Вот основные типы алгоритмов.

  1. Классификация. Эти алгоритмы помещают существующие данные (или прошлые данные) в различные «классы» (отсюда и классификация) на основе их атрибутов (свойств) и используют эти классифицированные данные для прогнозирования.
  2. Регрессия. Эти алгоритмы строят математическую модель на основе существующих элементов данных и используют эту модель для прогнозирования одного или нескольких элементов данных. В основном они используются с такими числами, как прибыль, стоимость, стоимость недвижимости и т. д. Основное отличие между алгоритмами классификации и алгоритмами регрессии находится тип вывода, в котором алгоритмы регрессии предсказывают числовые значения, тогда как алгоритмы классификации предсказывают метку класса.
  3. Сегментация или кластеризация. Эти алгоритмы делят данные на группы или кластеры элементов со схожими свойствами.
  4. Ассоциация: эти алгоритмы находят некоторую связь (технически называемую корреляцией) между различными атрибутами или свойствами в существующих данных и пытаются создать правила «ассоциации», которые будут использоваться для прогнозов. Алгоритмы находят элементы в данных, которые часто встречаются вместе.
  5. Анализ последовательности. Эти алгоритмы находят в данных частые последовательности (например, серию кликов на веб-сайте или серию событий журнала, предшествующих поломке компьютера).
  6. Временные ряды. Эти алгоритмы похожи на алгоритмы регрессии тем, что они предсказывают числовые значения, но временные ряды ориентированы на прогнозирование будущих значений упорядоченного ряда, а также включают сезонные циклы (например, управление запасами на складе).
  7. Алгоритмы уменьшения размерности. Некоторые наборы данных могут содержать много переменных, что делает почти невозможным определение важных переменных, влияющих на прогноз. Алгоритмы уменьшения размерности помогают определить наиболее важные переменные.

Кроме того, есть некоторые ключевые технические термины, которые нам необходимо знать, прежде чем мы узнаем об алгоритмах. Они есть:

Программа-классификатор — программа для сортировки записей данных по разным классам. Например. классификатор может сортировать автомобили по классам, таким как седаны, внедорожники и т. д.

Выбросы — точки данных, выходящие за пределы обычного диапазона. Например. в тесте с наибольшим количеством баллов от 40 до 45 оценка 100 будет выбросом.

Зашумленные данные — данные с большим количеством выбросов.

На этом фоне давайте теперь перейдем к нашей избранной теме самых популярных алгоритмов интеллектуального анализа данных. Я курировал этот список из различных публикаций, но наиболее важным источником является исследовательская работа из этой статьи Международной конференции IEEE. Барабанная дробь, пожалуйста. Вот так!

Более подробное объяснение этих алгоритмов можно найти на сайте Цифровая трансформация.

Конечно, существует множество других алгоритмов, таких как случайный лес, GBM, XBoost, GMM, аппроксимация ядра и т. д., и выбор лучшего алгоритма для конкретной аналитической задачи может оказаться сложной задачей. Для одной и той же бизнес-задачи вы можете использовать разные алгоритмы, и каждый алгоритм дает разные результаты, а некоторые алгоритмы могут давать более одного типа результатов. Надеюсь, вы по крайней мере ознакомились с самыми популярными из этой статьи.

Вы также можете ознакомиться с другими статьями о интеллектуальном анализе данных на веб-сайте Цифровая трансформация, упомянутом выше.

Пожалуйста, дайте мне знать ваши отзывы, и если у вас есть какие-либо фавориты, пожалуйста, не стесняйтесь поделиться.