В Voxel51 мы создаем инструменты для машинного обучения и анализа данных с особым упором на критическую важность, которую анализ набора данных играет в создании лучших моделей и быстрее. FiftyOne - наш флагманский инструмент, позволяющий быстро анализировать и анализировать наборы данных. Большая часть нашей миссии - обучать и информировать читателей о лучших практиках. С этой целью, начиная с августа 2020 года, когда мы запустили FiftyOne, мы часто пишем сообщения в блогах не только в нашем блоге, но и в великом На пути к науке о данных. В этом посте я резюмирую наши сообщения за 2020 год, добавляя к ним свой редакторский комментарий. Наслаждаться!

Я выполнил анализ ошибок в наборе данных Google Open Images, и теперь у меня есть проблемы с доверием

Тайлер Гантер, 18 августа 2020 г.

Мотивированный растущим беспокойством по поводу того, что широко используемые наборы данных для машинного обучения и компьютерного зрения содержат множество ошибок аннотаций, подразумевая, что велика вероятность того, что значительный прогресс, который мы наблюдаем в нашей области, на самом деле является всего лишь шумом, Тайлер провел глубокий анализ Набор данных Google Open Images. Его анализ был ручным: он выбрал подмножество набора данных и вручную изучил результаты современной модели с человеческими ярлыками. Его выводы удивительны и тревожны: 36% ложноположительных ошибок в выбранном подмножестве на самом деле являются ошибками аннотаций, а не ошибками модели. Эта пугающая реальность предполагает, что нам как отрасли необходимо больше инвестировать в визуализацию и анализ наборов данных. В конце концов, если наши данные и аннотации неверны, мы не можем доверять нашим моделям. Мы добиваемся хороших успехов в этом направлении: наша функция ошибочность является частью FiftyOne Brain, которая позволяет быстро обнаруживать и ранжировать ошибки аннотаций для классификации и обнаружения наборов данных. [Ссылка на исходное сообщение]

IoU - лучший показатель оценки обнаружения

Эрик Хофесманн, 24 августа 2020 г.

Разработка детекторов объектов для компьютерного зрения - непростая задача. От получения и проверки данных и аннотаций до проектирования и реализации модели - процесс состоит из множества компонентов, в которых любой инженер по машинному обучению может потеряться. В сообщении Эрика Хофесманна подчеркивается, что часто упускается из виду этап этого процесса: выбор подходящей метрики оценки. Благодаря углубленному сравнительному анализу трех современных моделей с общими подходами к анализу производительности, Эрик может пролить свет на важность выбора правильной метрики при выполнении анализа модели, что является ключевым этапом рабочего процесса машинного обучения. [Ссылка на исходное сообщение]

Советы, чтобы не тратить время на написание сценариев в проектах машинного обучения

Эрик Хофесманн, 22 декабря 2020 г.

Любой специалист по данным или инженер по машинному обучению скажет вам, что он / она тратит значительную часть своего времени на написание разовых скриптов для обработки, визуализации и анализа данных; это огромная трата времени, которая ограничивает ее или его способность сосредоточиться на архитектуре модели и анализе производительности. В последнем посте Эрика в журнале Towards Data Science подробно рассказывается о многочисленных конкретных способах вернуть потерянное время с помощью правильных инструментов и передовых методов. Он обсуждает почти два десятка различных инструментов для этой цели, включая нашу библиотеку машинного обучения с открытым исходным кодом FiftyOne, которая может помочь сократить или даже убрать большую часть этого времени. [Ссылка на исходное сообщение]

Подводя итоги!

Надеюсь, вам понравилось сокращение. Мы постоянно думаем о новом контенте для этих блогов, а также улучшаем наши инструменты. Напишите мне в Сообщество FiftyOne Slack, если у вас есть идеи или пожелания.