Люди-этикетировщики заменены с помощью ИИ

Mckinsey & Company указывает на пять узких мест, которые стоят между вашей организацией и достижением победы с помощью ИИ:

Маркировка данных
Получение массивных наборов обучающих данных
Проблема объяснимости
Обобщаемость обучения
Предвзятость в данных и алгоритмах

Мы бы добавили еще одно:

Пробел в навыках ИИ

В Ziff мы считаем, что между вашей организацией и достижением успеха с помощью ИИ должно быть только одно узкое место: получение экспертного понимания.

Пример изображения:

У вас есть данные об изображениях, но вы не знаете их ценности. Чтобы даже узнать, есть ли у вас что-нибудь полезное, нужно подписаться на 6 рисков, связанных с предоставлением ценности ИИ. Вы должны собрать, а затем пометить свои данные чем-то интересным. Если в конце этого процесса вы обнаружите, что в ваших данных нет ничего полезного, вы вернетесь к исходной точке.

Ярлыки:

В этом примере мы берем набор данных людей с открытым исходным кодом 550 000 изображений, но это может быть ваш собственный набор данных любых изображений. Это могут быть изображения людей, документов, продуктов, производственных процессов и т. Д. Обычно большой набор данных без меток (метаданные или результаты, назначенные каждому изображению) бесполезен, и требуются усилия по маркировке.

Маркировка занимает много времени, дорого и часто не запускается, если вы имеете дело с большими объемами конфиденциальных данных. Если вы готовы к краудсорсингу, маркируя свои данные с помощью платформы, подобной Amazon Mechanical Turk, вы, вероятно, можете сократить сроки, но вам следует ожидать, что вы заплатите от 25 000 до 150 000 долларов в течение 1–6 месяцев. Если это ваша первая кураторская работа как организации, это займет больше времени, потому что вы, вероятно, повторите процесс несколько раз, прежде чем у вас все получится. Вы обнаружите, что повторение самого себя - обычная тема в искусственном интеллекте.

Пример рабочего процесса изображения AI

Собрать все изображения (расчетное время: дни-недели)
Обозначьте свои данные метаданными (расчетное время: дни-недели): если у вас уже есть метаданные о ваших изображениях, это сэкономит ваше время, но убедитесь вдвойне, что это ярлык, который вам действительно важен - задача искусственного интеллекта Идентифицировать хот-доги - это весело, но дает ли это вам новые возможности или помогает снизить затраты?
Маркировка краудсорсингом или «Insource» (расчетное время: недели-месяцы): если у вас нет метаданных или информация, которую вы хотите извлечь из изображений, еще не записана, вам необходимо поручить людям маркировать ваши данные и сотрудники Mechanical Turk не являются экспертами в вашей области - это приведет к ошибкам с большим количеством меток.
Анализ (расчетное время: месяцы): передайте свой набор данных изображений своему эксперту по глубокому обучению или в службу глубокого обучения и попросите их найти алгоритм, который работает с вашими данными.
Развертывание локально (расчетное время: месяцы): если вы развертываете локальное развертывание, ваша команда DevOps должна будет использовать инструменты для вычислений на графическом процессоре.
Развертывание в облаке (расчетное время: недели-месяцы): выберите и поставьте «модельный сервер», а также управляйте ресурсами графического процессора и автомасштабированием.

Даже после нескольких месяцев вложений времени и ресурсов вам, вероятно, все равно придется решать проблему более низкого, чем ожидалось, качества данных.

Решение:

В Ziff мы обнаружили, что это обычная проблема для наших клиентов и партнеров, поэтому мы хотели посмотреть, сможем ли мы автоматизировать весь этот процесс. Большинство систематизированных данных о клиентах содержат больше ошибок меток, чем они ожидали, и для клиентов с неструктурированными данными (например, изображения, аудио, видео) без меток эта проблема становится для них бесполезной. Наборы данных о людях могут быть особенно проблематичными из-за объема необходимой предварительной обработки (т. Е. Обнаружения / кадрирования лиц).

В Ziff мы использовали наши возможности глубокого обучения, чтобы автоматизировать процесс обнаружения и помочь человеку, который больше всего заботится о проблеме (вице-президент по продукту, руководитель и т. Д.), В ее решении. Если лица существуют в вашем наборе данных, они предварительно обрабатываются должным образом с использованием расширенных сетей обнаружения для автоматической обрезки.

Без человеческого руководства или наставничества наш процесс искусственного интеллекта организует весь набор данных размером 550 тыс. За несколько минут в значимые кластеры для экспертной оценки.

Создаваемые естественные кластеры включают такие вещи, как: пол (мужчина / женщина), раса (азиаты / черные / белые), шляпы, бороды и возраст. Для этого конкретного случая использования возможность обучать модель пола и расы на исходном наборе данных очень полезна, поскольку во многих случаях внешние обучающие наборы отклоняются от набора данных пользователя.

Результаты:

Индексирование и систематизация 550 000 изображений менее чем за час
Природные кластеры, идентифицированные ИИ и проверенные опытным пользователем
98,9% гендерной классификации достигнуто с использованием автоматических меток AI
Другие интересные ярлыки включали расу (азиаты / черные / белые), возраст (›40,‹ 40) и аксессуары для лица (борода, шляпы).

Вспомогательное оборудование:

Этот анализ был выполнен на PureStorage FlashBlade и NVIDIA v100s.

Люди-этикетировщики заменены с помощью ИИ

Ярлыки:

Похожие вопросы