Если ваша компания не пользуется преимуществами науки о данных, то небольшая предварительная работа может значительно повысить ваши шансы на то, чтобы заставить их воспользоваться этим первым шансом.

Вы пытались убедить своих начальников или коллег в том, что определенный проект по науке о данных принесет пользу компании или бизнесу, но только для того, чтобы его отклонили или отказались от него, даже если вы видите, что это было бы так хорошо?

Часто вам могут отказать по нескольким из наиболее распространенных причин:

  • Не вижу преимуществ
  • Текущий способ лучше, зачем нам рисковать измениться?
  • Считается слишком дорогостоящим или сложным, чтобы рисковать

Список можно продолжать, но фундаментальный результат заключается в том, что ключевые заинтересованные стороны просто не вовлечены в процесс, и вы никогда не получите их одобрения.

Так что ты можешь сделать?

Подобно статье, которую я написал ранее о запуске ваших проектов, сосредоточив внимание только на основной технологии, которая будет им управлять (а не на всех прибавках, которые нужны завершенному проекту), вы можете увеличить свои шансы, задав простой вопрос. Если вы попросите огромное количество ресурсов или большую сумму денег у людей, которые никогда не видели преимуществ, которые может принести хорошо спланированный, выполненный и спроектированный проект по науке о данных, они никогда не согласятся.

Главное здесь - придерживаться:

БУДЬ ПРОЩЕ

Хороший способ сделать это - вместо того, чтобы предоставлять полный продукт, придерживаясь стратегии Proof-Of-Concept (POC). Здесь вы пытаетесь предоставить ровно столько, чтобы вы могли продемонстрировать выполнимость полного проекта.

Он также имеет большое преимущество, поскольку дает вам лучшее представление о полном проекте:

  • Какие навыки нужны
  • Все усилия, которые потребуются
  • Вероятная выгода (т.е. точность и компетентность решения по сравнению с существующими решениями)
  • Почувствуйте, что это лишит людей работы (возможно, даже их собственной)

Чтобы помочь, я приведу простой пример, который мы можем пройти.

Отслеживание выбоин

Вы работаете в фирме, которая управляет дорогами в местных органах власти. Как новый сотрудник компании, вы заметили, что одна из их основных проблем с обслуживанием стареющих дорог связана с количеством выбоин, которые необходимо ремонтировать каждый год.

Для образования ям требуется проникновение воды и движение транспорта. Происходит то, что вода попадает в трещины на верхней поверхности, замерзает и расширяется, толкая поверхность дороги вверх и увеличивая трещины. Когда он тает и сжимается, под поверхностью остается дыра, которую преодолевает транспортный поток. Затем этот материал теряется, и отверстие со временем расширяется.

Красивое иллюстрированное изображение этого процесса показано ниже:

Следовательно, выбоины со временем могут увеличиваться по мере старения дороги и начала образования трещин. Если оставить его расти (считается, что глубина около 40 мм требует срочного ремонта в некоторых областях), он может стать достаточно большим, чтобы повредить автомобили, и к советам могут быть предъявлены претензии (и они требуют вернуть это от компании).

Компания старается ремонтировать выбоины, а плановый ремонт на 17% дешевле экстренного. Их задача - отслеживать выбоины и следить за состоянием дорог.

В настоящее время у фирмы есть бригады, которые она разъезжает по дорожной сети, которую ей удается обследовать и отмечать участки дороги, требующие обслуживания. Однако они, как правило, проводят много времени на дорогах с интенсивным движением, и у фирмы есть только несколько групп обученного персонала, которые могут это сделать.

Это означает, что многие боковые дороги не контролируются активно и полагаются на сообщения общественности, чтобы привлечь внимание, и часто это происходит тогда, когда они уже очень большие и требуют немедленного ремонта.

Где наука о данных?

Как специалисты по обработке данных в компании, мы понимаем, что возможность существует. Если бы мы могли снимать дорожную сеть, мы могли бы применить решение машинного обучения на основе машинного зрения для распознавания дыр. Если мы соединим его с GPS, мы сможем построить карту и отметить, где они находятся.

Подумайте только об этом! Мы могли бы заставить кого-нибудь ездить по сети раз в неделю или месяц с камерой, установленной на приборной панели, и некоторой электроникой, и мы генерируем активное изображение качества дороги. Мы могли бы даже добавить некоторые другие проблемы (например, посторонние предметы на дороге или поврежденные крышки люков). Только подумайте, как это может произвести революцию в работе бизнеса! Мы перейдем от очень реактивного к проактивному.

К сожалению, никто не покупается на это, хотя

Обычно это когда вы обнаруживаете, что эти проекты никуда не денутся. Хотя ваш начальник или линейный менеджер могут увидеть, что это неплохая идея (конечно, они бы вас не наняли в противном случае), у них, вероятно, нет бюджета или согласия на то, о чем вы просите, и нет возможности получить различные заинтересованные стороны, участвующие в процессе пересечения отделов.

Это те, кого нужно убедить, а им это не нравится. Это может быть связано с тем, что они никогда не видели, на что способен успешный проект в области науки о данных, но также, если вы думаете о том, о чем просите:

  • Доступ к автотранспорту, необходимый для их работы (возможно, на время, чтобы получить достаточно отснятого материала для тренировок)
  • Разрешение на добавление к ним электроники и оборудования
  • Заставьте людей (которые выполняют свою основную работу) запустить и использовать это оборудование
  • Получите индивидуальную электронику и комплект, который они могут использовать (GPS и запись видео)
  • Вычислительные ресурсы и разработка программного обеспечения для функций отображения и обработки для создания информационной панели результатов (так что ИТ-специалистам это тоже может не понравиться)
  • Не только ваше время, но и время других в течение периода, достаточного для выполнения этой работы. Это может занять пару месяцев, если вы задумаетесь.

Сложите все это вместе, и вы увидите, что это не маленький запрос на ресурсы, и если он не удастся, можно очень много потерять, и им придется отвечать за него.

Что мы можем сделать?

Вот тут-то и приходят мысли о POC. Нам просто нужно показать, что ключевой результат возможен.

Это ключевая вещь, о которой нужно подумать, потому что, если это их первый проект в области науки о данных, и он пойдет не так, как надо, они, возможно, никогда больше не купятся на другой проект. Выполнение POC с меньшим риском может позволить вам убедиться, что вы не потеряете возможность повторить попытку.

Каков ключевой результат?

Можем ли мы обнаруживать выбоины на достаточно надежном уровне, чтобы их можно было превратить в бизнес-возможности?

Мы также хотим уменьшить это количество, поэтому мы просим достаточно ресурсов, чтобы это сделать. Если мы подумаем о том, что нам нужно, чтобы показать ключевой результат, все, что нам нужно, это:

  • Данные, которые мы можем использовать
  • Подходящая модель для использования
  • Вычислительные ресурсы и время для запуска и подготовки данных

Здесь может пригодиться некоторая изобретательность. Часто вы можете найти большие репозитории с различными наборами данных с открытым исходным кодом, которые, хотя и не идеальны, могут соответствовать всем требованиям, и после небольшого поиска на Kaggle действительно есть набор данных о выбоинах.

С точки зрения модели, это часть работы специалиста по данным, и я, вероятно, посмотрел бы на использование существующей модели распознавания изображений и передачу обучения, поэтому нам не нужно огромное количество новых изображений для ее повторного обучения, а также мы должны получить более высокую производительность, чем если бы мы тренировались с самого начала.

Все это должно быть возможно на вычислительных ресурсах, которыми вы располагаете как специалист по данным (например, мощный ноутбук или доступ к вычислительным ресурсам на сервере компании).

Примечание. Если у вас нет доступа к каким-либо вычислительным ресурсам, сейчас самое время сказать своей работе, что они нужны вам для работы.

Постройте модель

Я использовал TensorFlow как мой любимый инструмент машинного обучения и LabelImg, чтобы пометить необработанные изображения с выбоинами.

Я сделал около 150 изображений, а затем разделил их на 100 для обучения и 50 для тестирования. Этот меньший по размеру тщательно подобранный набор был полезен, поскольку я мог выбирать изображения, которые выглядят так же похоже, как я ожидал бы от изображения, сделанного с помощью видеорегистратора (т.е.они смотрят вверх по дороге, как будто едет машина).

Затем я настроил обучение модели и посмотрел на результат. Я привел пример ниже, но результаты были довольно хорошими. Я поставил себе крайний срок всего в день, поэтому мне пришлось преждевременно остановить обучение модели, но похоже, что точность достигала около 70%, что довольно хорошо для черновой модели!

Результат

Итак, что нам с этим делать? Что ж, мы взяли очень грубые данные, провели грубую очистку и быстрое обучение и получили очень хорошие результаты. Мы знаем, что с большим количеством данных, которые соответствуют нашим ожиданиям (многие изображения не совсем встроены для видеосъемки с видеорегистратора), мы очень быстро обучили режим на небольшом наборе данных, получив хороший результат.

Мы можем с уверенностью сказать, что ожидаем, что производительность будет на этом уровне или выше, и у нас есть изображения и результаты, которые мы можем скомпилировать в определенный путь и использовать реальные изображения, чтобы показать сопоставимые результаты того, с чем может работать вся система. Например, теперь мы можем показать им такой дизайн:

Хотя это может показаться неважным. Возможность показать фактические результаты и лучше разбираться в вещах может помочь, и с некоторыми цифрами мы можем начать делать бизнес-обоснование.

В нашем примере мы находим:

  • Они склонны пропускать выбоины на более второстепенных дорогах, поскольку приоритет отдается дорогам с большей интенсивностью движения.
  • Мы надеемся идентифицировать не менее 70% выбоин, просто сделав запись дороги с помощью видеорегистратора.
  • Эти кадры могут быть сняты любым, кто едет по маршруту, и не полагается на ограниченное количество обученных участников.
  • Профилактический ремонт на 17% дешевле реактивного

Объединив все это вместе, мы можем сказать, что мы ожидаем сэкономить 17% на 70% выбоин.

Что теперь? Назовите это действительными числами

Отсюда я бы посоветовал получить некоторые твердые цифры, чтобы заинтересованные стороны могли увидеть потенциал и увидеть, будут ли окупаться затраты на выполнение полного проекта.

Например, если мы обнаружим, что:

  • 49 фунтов стерлингов на профилактический ремонт каждой выбоины
  • 60 фунтов стерлингов на ремонт выбоин
  • На дорогах, которые редко обследуются, обычно ремонтируется около 100 выбоин в месяц.
  • 5 в месяц являются опасно большими и требуют требуемых затрат на ремонт транспортных средств в размере 300 фунтов стерлингов за опасную выбоину (не считая затрат на ремонт выбоины)
  • Мы предполагаем, что все эти выбоины в настоящее время являются реактивным ремонтом после сообщения общественности.

Теперь мы можем сказать, что в настоящее время затраты составляют:

  • Текущие затраты системы на ремонт 1200 выбоин - 72000 фунтов стерлингов в год.
  • требуемые затраты на ремонт 60 опасных выбоин составляют 18000 фунтов стерлингов в год.

С этой новой системой мы можем сказать, что надеемся как минимум на:

  • 41 160 фунтов стерлингов (840 профилактических ремонтов) и 21 600 фунтов стерлингов
  • 5400 фунтов стерлингов на ремонтные расходы, подлежащие истребованию

Стоимость меняется с 90 000 фунтов стерлингов до 68 160 фунтов стерлингов в год. Экономия компании 21 840 фунтов стерлингов в год.

Затем эта предполагаемая минимальная экономия может быть оценена заинтересованными сторонами, чтобы лучше сбалансировать риск / выгоду, а также с учетом затрат на проект. Вы также можете увеличить экономию, сказав, как это может повлиять на более широкую сеть. Все это за день работы!

С помощью такого рода POC вы можете перейти от расплывчатого предложения к гораздо более твердой позиции, а запуск бизнеса стоит того, чтобы привлечь людей.

Резюме

Мы перешли от грандиозного видения проекта, предполагающего только субъективную экономию и затраты, к небольшой стоимости ресурсов (которую, вероятно, может дать вам ваш менеджер) с POC, результаты которого могут дать представление о ресурсах и экономии. Отсюда вы можете создать кейс, который увеличит ваши шансы на продажу проекта по науке о данных.

Это, как правило, стратегия, которую я использую на протяжении всей своей работы. Вместо того, чтобы пытаться продать и начать с огромных проектов, проект меньшего масштаба, связанный с ключевыми результатами, часто может снизить риски и повысить ваши шансы на успех. Это также будет означать, что вы делаете много разных вещей, что хорошо, если вам нравится разнообразие.

Примечание. По возможности я старался использовать реалистичные числа везде, где это возможно. Однако в некоторых случаях я использовал цифры, которые казались разумными. Это, конечно, только для иллюстративных целей.