Если вы не можете это измерить…

Я изучал эконометрику в университете. Как эконометрик, я думаю, что одна часть романа Адама Фэвера Невероятное долгое время занимала мои мысли. В книге был разговор двух людей. Главный герой спрашивал другого человека, что если вы подбросите монету, результат будет случайным, верно? и продолжил он, поведение монеты должно подчиняться правилам ньютоновской физики. Если мы посчитаем скорость ветра, силу и угол моего пальца и материальные свойства монеты, то нам не придется гадать, мы можем каждый раз знать, какой будет исход.

Если в уравнении нет неизвестной переменной, это уже не прогноз. Волшебной идеей внутри диалога для меня было количественное определение деталей, которые я никогда не считал поддающимися количественному измерению. В школе мы научились управлять неизвестными в экономических предметах, которые мы хотим прогнозировать. После прочтения книги я часто думал, что если эволюция технологий достигнет уровня зрелости, когда мы сможем знать все переменные в экономических субъектах, то нам не нужно будет ничего прогнозировать. Мы бы знали, каким будет будущее. Технологии обработки данных развиваются очень быстро, но мы все еще не на том уровне. Мы когда-нибудь будем?

Наука о данных достигла выдающегося уровня своих возможностей и продолжает совершенствоваться. Он хвастается своей способностью выполнять распознавание изображений, обработку естественного языка, обнаружение мошенничества и т. д. Нет никаких причин, по которым он терпит неудачу, когда прогнозирует количество продаж определенного продукта на следующий день. Методы прогнозирования могут работать над вопросами о тенденциях фондового рынка на следующий день, будут ли они расти или падать, но прогнозировать точную стоимость акции? Я не говорю, что это невозможно; возможно, мы сможем сделать это когда-нибудь в будущем. Но, по крайней мере, Роберт Лукас не согласился на это на макроэкономическом уровне.

Он экономист и известен своей работой Критика Лукаса. Эта критика говорит, что если вы попытаетесь спрогнозировать экономическую ценность в текущих условиях и строите свои планы на основе этого прогноза, то ваш прогноз потеряет свою основу при изменении условий. Звучит разумно, правда?

Но этот факт не мешает нам получать выгоду от силы науки о данных. Теоретически, если организация имеет быстрый поток данных и первой реагирует на изменяющиеся условия, она все равно может прогнозировать будущее с высокой точностью. Полный набор исходных данных экономического субъекта может быть огромным. Подумайте о компании с тысячей различных продуктов, которая пытается отслеживать их продажи каждый час. Он измеряет продажи своей продукции в определенной товарной группе в определенном городе, возрастной группе и в определенный день. Кроме того, подумайте, что вы количественно оцениваете каждое движение вашего конкурента в рекламных каналах, все изменения цен и влияние других влиятельных лиц на продажи. Может быть, я не могу здесь сосчитать, но давайте скажем, что у них есть все подробности о своей продукции. И у них также есть отличная команда данных. Думаю, уже не удивительно, что они могут делать хорошие прогнозы.

Компании уже составляют прогнозы своего возможного роста, бюджета, планирования спроса. Например, многие организации каждый год ищут ответы на следующие вопросы:

  • Если спрос в следующем году будет на 15% выше, чем в прошлом году, достаточен ли уровень запасов?
  • Потребуются ли нам дополнительные машины для поддержки спроса?
  • Хватит ли текущих складских мощностей?

Если у вас есть длинные и качественные временные ряды, высокая точность результатов прогнозирования — не мечта. Но если лица, принимающие решения, имеют более короткий период прогнозов с фактическими данными, они могут скорректировать свое решение, чтобы выполнить планы на конец года. Наличие этих подробных данных связано с экономическими условиями и видением организаций.

…Вы все еще можете справиться с этим

Даже если у нас нет всех данных, мы все равно можем делать хорошие прогнозы на основе того, что у нас уже есть. Существует много видов алгоритмов машинного обучения для разных типов данных, и они могут помочь с хорошим прогнозом.

Экономические прогнозы, основанные на сложных алгоритмах, могут дать исключительные результаты, если у вас есть детализированные, высококачественные данные временных рядов в режиме реального времени.

На данный момент системы автономной аналитики должны изменить правила игры для компаний, у которых достаточно оперативных данных. Автономные системы аналитики работают, когда нет поддержки со стороны человека. Они сопоставляют изменения различных переменных и приспосабливаются к этим изменениям. В конце концов, если в данных есть аномалия или возможность, они делятся ею с нужным человеком. Благодаря технологиям Генерации естественного языка эти системы могут сообщать нам чистые сводки текстовых сценариев в электронном письме.

Автономная аналитика может видеть важные детали, которые мы не видим в данных в абзаце. Но почему мы не видим в данных важных аномалий, возможностей или закономерностей? Причины, как правило, связаны с человеческими способностями. Несмотря на то, что вы создаете информационные панели и отчеты для аналитика, у нас есть ограничение на одновременную обработку и сопоставление данных. Мы смотрим на данные с ограничениями наших предубеждений, предположений и возможностей обработки данных. Даже если один из аналитиков данных заметит аномалию в одном из ваших KPI, поиск основной причины может занять несколько часов из-за указанных выше ограничений.

Мы можем установить пороги для предупреждений. Лично я согласен с этим решением, но давайте приведем пример; В вашей организации есть сегменты клиентов для маркетинговых целей. Вы отслеживаете их заказы с помощью подхода, основанного на местоположении. Ваши пороговые значения составляют +5% и -5% от суммы продажи продукта. Это означает, что если сегодняшняя сумма продаж продукта на 7% ниже, чем вчера, вы можете получить предупреждение. Эти пороговые значения устанавливаются одним из ваших экспертов в предметной области. Но если ваш временной ряд имеет еженедельное сезонное поведение, вы можете получать множество предупреждений. Может быть, вы можете использовать скользящую среднюю для суммы продажи предупреждения. Тем не менее, если в наборе данных есть общая тенденция, вы получите много ложноположительных предупреждений, когда ваша отрасль вырастет на 15% в год, а интервал скользящей средней установлен неправильно. Если в наборе данных скользящего среднего окажется непредвиденный день, это создаст еще один поток предупреждений. Подумайте об одной неделе позже, чем распродажа в Черную пятницу или сбой системы. Формулы скользящего среднего сами по себе не могут исключить эти проблемы.

Вывод

Когда лицо, принимающее решения, открывает информационную панель или отчет, он видит очень небольшую часть всех показателей компании. Даже если они найдут ответы на свои вопросы на высоком уровне, они могут задать больше вопросов, прежде чем принять важное решение. В большинстве случаев на эти новые вопросы невозможно ответить с помощью существующих отчетов. Аналитики и разработчики визуализируют лишь ограниченное количество заранее определенных сценариев среди бесчисленных возможностей. Если требуется дополнительное решение BI, они добавляют еще один отчет в текущий список отчетов. Но это не масштабируется. Традиционная BI не помогает, когда люди глубоко погружаются в данные. Автономные системы аналитики работают и анализируют данные даже тогда, когда вы их не запрашиваете. Они работают с наиболее детализированными и надежными временными рядами, чтобы найти причинно-следственные связи и корреляции. Когда вы начнете задавать вопросы, ответы будут легко доступны.

Создание или внедрение платформы автономной аналитики должно быть в планах компаний, которые не хотят терять свое преимущество. Алгоритмы онлайн-машинного обучения могут анализировать данные и извлекать сезонность, тенденции и влияние возможных выбросов. Алгоритм может устанавливать свои пороговые значения на основе исторических временных рядов и создавать более точные оповещения.

Если у вас есть система, которая выполняет эти анализы автономно и в режиме реального времени, вам повезло. Потому что вы можете обнаружить проблемы и возможности раньше, чем ваши конкуренты, используя традиционные методы BI. Однако некоторым другим компаниям может повезти больше, чем вашей организации. Компании, которые получают сводку о причинно-следственных связях, когда более чем одна метрика одновременно имеет аномалии. За день могут произойти тысячи аномалий. Тем не менее, эти аномалии могут быть связаны с одной конкретной причиной. Предположим, ваша автономная система аналитики достаточно сложна. В этом случае он может показать вам самые важные корреляции в удобном для чтения формате и позволить вам определить точную причину проблемы или возможность достижения. Вот отличная статья, которую вы можете прочитать о решениях для обнаружения аномалий и анализа первопричин: Эрикссон — Как построить надежные детекторы аномалий с помощью машинного обучения, написанная Никитой Бутаковым.

Создание платформы автономной аналитики в домашних условиях возможно, но требует много времени, исследований и большого бюджета. Чтобы узнать больше, ознакомьтесь с этой записью в блоге Anodot отсюда: Почему рекламным технологиям нужен анализ в реальном времени и решение для обнаружения аномалий.

Благодарности

При написании этого поста я хотел бы поблагодарить Satrujeet Rath за корректуру и предложения по исправлению.