Машинное обучение для стартапов

Машинное обучение сейчас в моде и может стать основным отличием вашего стартапа. К сожалению, большинство стартапов недооценивают, насколько сложным и дорогим может быть внедрение машинного обучения. Следующие пункты являются рекомендациями, которым я следую, чтобы успешно интегрировать машинное обучение в программное обеспечение, пока стартапы все еще находятся на ранних стадиях.

Что вам понадобится

Машинное обучение — это просто набор статистических методов, которые можно использовать для больших наборов данных, чтобы делать прогнозы. Сосредоточены ли вы на компьютерном зрении, робототехнике, рекомендательных системах или любом из множества способов использования машинного обучения. По сути, вы сосредоточены на предсказаниях. Вы вводите данные, и появляются прогнозы. Это просто в теории, но найти правильную модель для достижения того, что вы хотите сделать, не всегда просто. Чтобы облегчить ваше путешествие по ML, вам понадобится способ сбора, передачи и преобразования данных в соответствии с вашими потребностями.

Общие методы начала работы с ML

Основная проблема с машинным обучением заключается в том, что для стартапа может показаться почти невозможным получить все необходимые данные. Вы можете попробовать сотрудничать с организацией, располагающей всеми данными, которые могут вам понадобиться, но немногие стартапы на самом деле достигают этого. Другая распространенная стратегия — использование сервисов для извлечения и маркировки данных, но обычно это довольно дорого. Как стартап, у вас обычно не так много денег, и вы не хотите тратить весь свой бюджет на создание набора данных. Можно сэкономить на расходах и сделать извлечение и маркировку самостоятельно, если у вас нет других дел, которыми вы хотите заниматься в течение следующих нескольких месяцев.

Я предложил несколько вариантов и выступил против каждого из них. Так что же делать основателю стартапа? Я обнаружил, что лучший способ решить эту проблему — спланировать постепенную эволюцию в сторону машинного обучения, а также разработать свой продукт, чтобы ваши пользователи маркировали ваши данные для вас. Остальная часть этого поста будет посвящена этой стратегии и тому, как ее реализовать.

Сила традиционного ИИ

Еще до того, как машинное обучение стало общепринятым термином, компании внедряли ИИ, используя более традиционные методы, и часто они были действительно успешными. Такие методы, как экспертные системы на основе правил, логические деревья и алгоритмы кластеризации, такие как k-средние, весьма эффективны и во многих случаях до сих пор являются основой индустрии машинного обучения. Создавая свой сервис с использованием этих технологий, вы можете восполнить пробел в данных, поскольку вы собираете все данные, которые вам нужно наложить на алгоритмы машинного обучения.

Составьте план

На ранней стадии стартапа инструменты, которые вы используете, имеют значение, особенно инструменты, которые управляют данными вашей компании. Как выбрать правильный инструмент данных? Все, что вы выберете, должно быть недорогим или бесплатным для начала. У них должна быть низкая кривая обучения, и они должны обеспечивать гибкость, чтобы ваша компания могла расти без лишних трений. По сути, вы захотите избежать корпоративных инструментов.

Будьте ориентированы на данные

Создание конвейеров данных в вашей системе с самого начала облегчит добавление машинного обучения по мере развития вашего стартапа. Однако у вас не будет никаких данных в первый день. Поэтому, когда вы разрабатываете свой продукт, вы должны подумать о том, как заставить пользователей маркировать данные для вас. Цель состоит в том, чтобы получить точно размеченные данные как можно ближе к бесплатному.

Расширение данных

Когда у вас много данных, но кажется, что их недостаточно для модели машинного обучения, вы можете использовать стратегию расширения данных, чтобы увеличить размер набора данных без простого дублирования записей. Поступая таким образом, вы можете уменьшить потенциал моделей с высоким смещением, вызванных наборами данных без достаточной дисперсии. В зависимости от имеющихся у вас данных вы можете применить преобразования к данным, чтобы создать больше точек данных для обучения на основе существующего набора данных. Такие методы, как поворот изображений или регулировка высоты тона звука, могут помочь расширить набор данных и добиться лучших результатов.

Не изобретайте велосипед

Такие компании, как Google, Amazon и Microsoft, имеют API-интерфейсы, позволяющие делать прогнозы с использованием их моделей машинного обучения. Для более специализированных приложений, которые не охватывают их услуги, вам придется засучить рукава и использовать такие фреймворки, как TensorFlow и Keras, для создания собственных моделей. Я не предлагаю делать это на ранней стадии, если только это не имеет решающего значения для вашего ценностного предложения. Создание качественных моделей с нуля может занять месяцы, и, несмотря на все усилия, они все равно могут дать сбой.

Подведение итогов

Управлять стартапом непросто, не говоря уже о стартапе, ориентированном на использование машинного обучения. Проявив творческий подход к получению и маркировке данных, вы обнаружите, что машинное обучение не должно быть непреодолимым препятствием. Я понимаю, что стратегия, которую я представляю, вероятно, всего лишь одна из многих. Если у вас есть процесс, в котором вы добились успеха, оставьте комментарий.