Это может показаться немного лицемерным, учитывая, что я убежденный сторонник принятия решений на основе эмпирических данных и опытный аналитик. Но выслушайте меня — не всех, кто называет себя специалистом по данным, стоит слушать.

Я видел, как опытные аналитики и специалисты по обработке и анализу данных с гордостью делали следующие заявления на очень публичных форумах:

Регрессия — это не машинное обучение.

Если вы хотите знать, почему, вам нужна прогнозная аналитика.

Логистическая регрессия расскажет вам о причинно-следственных связях.

Все это категорически ЛОЖНО. У меня довольно открытый ум, но я также отличаю правильное от абсурдного. Однако, хотите верьте, хотите нет, но по большому счету это относительно тактическая ложь.

Существует так много недопонимания и дезинформации о науке о данных и машинном обучении, увековечиваемой предполагаемыми профессионалами в этой дисциплине, что я задаюсь вопросом, что считается профессионалом. Некоторые из этих фундаментальных понятий довольно популярны и, ну, очень разочаровывают. Итак, вот пять мифов об аналитике/науке о данных/статистике, которые приходят мне на ум в данный момент.

Миф №1. Все модели, построенные с использованием одних и тех же источников данных, переменных и методов, практически одинаковы.

Связанный с этим миф: невозможно построить лучшую аналитику без дополнительных источников данных или переменных. В некоторых случаях это верно: например, если у вас есть профессионал в области аналитики, который действительно знает, как извлечь максимальную пользу из любого заданного набора данных. Новость: ЭТО РЕДКО. Это вещи для единорогов.

Думаю об этом. Если бы это было правдой, то было бы довольно легко автоматизировать весь процесс разработки модели, потому что все, что нам нужно было бы сделать, это ввести новые источники данных и переменные. Все специалисты по аналитике останутся без работы.

Я участвовал в нескольких конкурсах, в которых побеждала группа, показавшая наилучшие результаты при одних и тех же данных. Kaggle — еще один прекрасный пример этого. Я «выиграл» несколько таких конкурсов (но не Kaggle!), все время слушая, как другие говорят: «Нам нужны другие данные/переменные, чтобы двигаться вперед». Рискуя обидеть нескольких человек, это лень с точки зрения специалиста по данным.

Да, многие модели построены с использованием одних и тех же переменных источников данных, и методы практически одинаковы. Но это те немногие, которые выделяются, имеют значение.

Миф №2. Нам нужна предиктивная аналитика для информирования нашей стратегии.

Вы можете быть шокированы этим: в подавляющем большинстве случаев (я бы сказал, больше 99%) цель предиктивной аналитики очень тактическая. Это НЕ для получения информации для информирования стратегий и политик. Развитие возможностей предиктивной аналитики может быть корпоративной стратегией, но то, что дает предиктивная аналитика, является очень тактическим: инструментом для индивидуального принятия решений.

При информировании о стратегии вам необходимо объяснить почему. Предиктивная аналитика не предназначена для выяснения причин. Объяснительная аналитика есть. Это подход, предназначенный для ответа на вопрос «почему». Но мы никогда об этом не слышим. Это мышление, основанное на инструментах, обрекает аналитику на 60–70% отказов, которые мы наблюдаем сегодня и наблюдаем в течение многих лет. Это не то, как можно делать стратегию в отношении чего бы то ни было.

Миф №3. Мало что можно сделать, чтобы избежать непреднамеренных последствий аналитики.

Когда дело доходит до данных и вариантов их производного использования, огромное, подавляющее большинство непреднамеренных последствий — это просто последствия, которых следовало ожидать, но о которых не подумали. Компетентный и умный специалист по аналитике должен быть в состоянии определить большинство этих рисков и зависимостей.

Это человеческая деятельность; без него вы могли бы также заменить своих специалистов по аналитике искусственным интеллектом. Многие специалисты по данным уже непреднамеренно прокладывают путь к этому: читайте об этом здесь.

Прощальный выстрел

Исходя из моего опыта работы консультантом по стратегии и управлению в области данных и аналитики, не будет преувеличением сказать, что я трачу 70–80% своего времени на различные мероприятия, пытаясь возместить ущерб, причиненный всей ерундой, которая включает в себя подобные вещи. Хотя в мире много специалистов по данным — недостатка в специалистах по данным нет (это отдельная дискуссия) — само собой разумеется, что не все из них являются единорогами или даже достаточно способны, чтобы быть вашими надежными данными. ученый!