Диапазон архитектур DL в литературе подпадает под одну из сверточных нейронных сетей (CNN), полностью сверточных сетей (FCN), сетей региональных предложений (RPN), сверточных сетей графов (GCN) или гибридных сетей (HN), в зависимости от подход к классификации сорняков. В рамках CNN, взяв предварительно обученные веса с использованием трансферного обучения из общедоступных наборов данных, таких как ImageNet [3], COCO [4] и KITTI [5], исследователи сравнили различные популярные архитектуры для классификации изображений. Некоторые из них: AlexNet, VGG-19, GoogLeNet, NasNet, Inception-ResNet, DetectNet, ResNet-50, ResNet-101 и Inception-v3. Лучшая модель варьируется в зависимости от классифицируемых видов, количества рассматриваемых классов и времени выполнения классификации. HN, такие как AgroAVNET, которые сочетают в себе структурные свойства AlexNet и VGGNet, объединяют архитектурные особенности из нескольких моделей в соответствии с их влиянием на общую производительность модели. Следующим уровнем абстракции будет предсказание ограничивающих рамок сорняков с использованием RPN. Этот подход к обнаружению объектов оказался успешным с использованием таких моделей, как YOLO-v3, Faster R-CNN, Single Shot Detector (SSD) и Mask R-CNN. Средством извлечения признаков в этих средах обнаружения объектов могут быть CNN или FCN с точно настроенными версиями вышеупомянутых архитектур. В качестве альтернативы крошечная модель YOLO-v3 может ускорить время вывода YOLO-v3 с небольшим компромиссом в точности и больше подходит для вывода в реальном времени. Современные графические процессоры оптимизированы для операций свертки, поэтому переход на полностью сверточные сети может ускорить время обучения. FCN могут классифицировать на уровне пикселей для семантической сегментации изображения, и в общих подходах используются хорошо известные архитектуры кодировщик-декодер, такие как SegNet или U-Net, с вариантами ResNet или VGG, например, в качестве блоков кодировщика. Сквозное обратное распространение в FCN означает, что изученные признаки будут оптимальными для классификатора, поскольку обучаемый признак связан с классификатором. Точность сегментации сильно зависит от размера набора данных, поэтому можно применить трансферное обучение, чтобы дать обучению преимущество, в то время как методы увеличения данных могут искусственно увеличить объем обучающих данных. Наконец, GCN, такие как Graph Weed Network (GWN), представляют изображения в виде графиков и считаются частично контролируемыми методами, поскольку неаннотированные узлы могут быть приблизительно помечены средневзвешенным значением соседних узлов с известными метками. Для более подробного обсуждения многих подходов к обнаружению сорняков на основе DL см. раздел 10 в [1].

Компьютерное зрение становится все более эффективной технологией для решения общих сельскохозяйственных задач, таких как прогнозирование урожайности, идентификация видов растений, обнаружение болезней и борьба с сорняками. Из них борьба с сорняками является особенно важной задачей, поскольку она оказывает наибольшее влияние на урожайность. Химическая борьба с сорняками предполагает либо сплошное опрыскивание, либо выборочное опрыскивание гербицидами. Опрыскивание с полным покрытием может снизить урожайность и усугубить проблемы со здоровьем и экологию из-за чрезмерного применения гербицидов, в то время как выборочное опрыскивание специально направлено на сорняки для повышения урожайности и защиты окружающей экосистемы. Традиционное выборочное опрыскивание требует больших затрат труда и времени, поэтому основная цель сельскохозяйственной системы машинного зрения — автоматическая система обнаружения сорняков, которая точно, эффективно и экономично выявляет сорняки в режиме реального времени. В этой небольшой статье подводятся итоги обсуждений из [1] и [2].

Решения обычно применяют традиционное машинное обучение (ML) или глубокое обучение (DL). Как правило, традиционные методы машинного обучения требуют меньше данных для обучения и требуют меньше вычислительных ресурсов. Тем не менее, глубокое знание предметной области имеет решающее значение для ручной обработки наиболее информативных функций в качестве входных данных для традиционных алгоритмов ML. Проблема идентификации сорняков невероятно сложна из-за сложной природной среды, занятой сорняками и сельскохозяйственными культурами. Среди обычных источников изменения данных изображения, таких как окклюзия, перекрывающиеся объекты, эффекты теней, размытие движения и шум, некоторые из них особенно трудно преодолеть при обнаружении сорняков, для которых даже профессионально спроектированные функции могут быть не оптимальными. Такие признаки можно разделить на цвет, текстуру, форму и спектральные модальности. При использовании по отдельности признаки на основе цвета являются наиболее ненадежными, поскольку межклассовые (между видами растений) и внутриклассовые (между экземплярами одного и того же вида) различия в цвете могут быть незначительными. Цвет листьев также сильно зависит от таких факторов, как время года, климат, география, условия освещения и заболевания. Аналогичные факторы влияют на эффективность спектральных характеристик листьев, таких как их отражательная способность. И форма, и текстурные элементы чувствительны к перекрытию или окклюзии. Некоторые текстурные функции, такие как матрица совместного появления на уровне Грея (GLCM), более надежны, но в равной степени непрактичны для вывода в реальном времени из-за их большей вычислительной сложности. Хотя функции каждого из этих методов можно комбинировать для повышения точности обнаружения, производительность модели зависит от качества выбора функций, и вполне вероятно, что некоторые важные функции предприятия останутся неиспользованными.

Несмотря на то, что традиционные алгоритмы машинного обучения показали себя многообещающе в качестве кандидатов на точную борьбу с сорняками в реальном времени, в первую очередь машины опорных векторов (SVM), большинство из них уступают методам глубокого обучения. DL автоматически изучает и выбирает лучшие иерархические признаки, которые асимптотически приближаются к оптимальности по отношению к конкретной учебной задаче. В отличие от традиционного машинного обучения, для обучения нейронной сети классификации требуется гораздо больший объем данных. Существует очень мало общедоступных наборов данных, содержащих разнообразные виды сорняков или сельскохозяйственных культур, не говоря уже о тех, которые содержат изображения реальных полей. Однако даже наборы данных по одному и тому же виду могут иметь ограниченную переносимость из-за вариаций, вызванных сезонностью, географией и фазами роста. То, что DL получает за счет автоматизации выбора признаков, теряется из-за значительных ручных усилий по маркировке данных. Будущие исследования в области активного обучения, полу-контролируемого, самоконтролируемого, обучения с несколькими или нулевыми выстрелами могут помочь минимизировать затраты на маркировку.

Как правило, цифровые камеры или мультиспектральные камеры устанавливаются на транспортных средствах для сбора данных для захвата каналов RGB, данных ближнего инфракрасного диапазона (NIR) или других спектральных данных. Предварительная обработка этих необработанных изображений облегчает способность сети обучаться и может включать изменение размера изображения для настройки разрешения или повышения вычислительной эффективности, удаление фона для устранения эффектов теней и мусора, удаление размытия при движении, шумоподавление, отбеливание данных и нормализацию канала. Впоследствии обучающие данные дополняются, чтобы улучшить эффективность обобщения модели DL. Методы увеличения включают в себя геометрические преобразования, гамма-коррекцию, кадрирование, ядерную фильтрацию, введение шума и преобразование цветового пространства. Увеличение цвета особенно полезно для вывода в реальном времени, поскольку оно позволяет модели научиться реагировать на изменяющиеся условия освещения, когда сельскохозяйственный робот находится в движении.

Возможно, более решающим фактором при выборе модели, чем незначительные улучшения точности классификации, обусловленные архитектурой, является низкая алгоритмическая сложность для удовлетворения требований обработки изображений в реальном времени. Это позволит точно и своевременно применять гербициды, подходящие для видов сорняков. Скорость обработки также зависит от эффективности аппаратного обеспечения, независимо от того, собирает ли робот данные для обучения или делает выводы на основе невидимых полевых данных. Компании, занимающиеся инфраструктурой искусственного интеллекта, обладают возможностями и экспертными знаниями для создания пользовательских мобильных устройств с передовыми встроенными графическими процессорами и сетевой инфраструктурой. Современные решения соответствуют критериям быстрой обработки изображений в реальном времени, что позволяет предприятиям в полной мере использовать мощные возможности глубокого обучения в цифровом сельском хозяйстве.

Ссылки:

[1] Махмудул Хасан, А.С.М.; Сохел, Ф; Диевен, Д.; Лага, Х; Г. К. Джонс, М. Обзор методов глубокого обучения для обнаружения сорняков на изображениях. CoRR, abs/2103.01415, 2021, «https://arxiv.org/abs/2103.01415»

[2] Ву, З.; Чен, Ю .; Чжао, Б.; Канг, X .; Дин, Ю. Обзор методов обнаружения сорняков на основе компьютерного зрения. Датчики 2021, 21, 3647. https://doi.org/10.3390/s21113647

[3] Дэн, Дж.; Донг, В.; Сочер, Р.; Ли, Л .; Ли, К .; Ли, Ф. ImageNet: крупномасштабная иерархическая база данных изображений. В материалах конференции IEEE 2009 г. по компьютерному зрению и распознаванию образов, Майами, Флорида, США, 20–25 июня 2009 г.; стр. 248–255.

[4] Лин Т.; Мэйр, М .; Белонги, С .; Хейс, Дж.; Перона, П.; Раманан, Д.; Доллар, П.; Зитник, Л. Microsoft COCO: общие объекты в контексте; Спрингер: Цюрих. Швейцария, 2014 г.; стр. 740–755.

[5] Гейгер, А.; Ленц, П.; Стиллер, К.; Уртасун, Р. (2013). Видение встречается с робототехникой: набор данных о котятах. Международный журнал исследований робототехники, 32 (11), 1231{1237}.

Компьютерное зрение на основе глубокого обучения для обнаружения и классификации сорняков в реальном времени