Глубокие нейронные сети (DNN) действительно хороши для обучения изображений и текста, но эти сети не были хороши для обучения на табличных данных. Почему это? Каждая часть информации в таблице (или "функции") имеет свое особое значение. Это отличается от изображений или текста, где DNN могут учиться на реляционных шаблонах.

Большинство людей используют древовидные модели для табличных данных, потому что они могут хорошо обрабатывать эти функции, определяя границы решения. Однако по мере того, как мы получаем все больше и больше данных (особенно данных без меток), древовидные модели начинают отставать.

Чтобы решить эту проблему, исследователи пытались заставить DNN лучше работать с табличными данными. В этом документе представлена ​​новая сеть под названием TabNet. Этот алгоритм использует специальный тип DNN для обучения, аналогичного древовидным моделям. Отличительной чертой TabNet является то, что он может определить, какие функции важны, и научиться лучше представлять данные.

Введение

TabNet использует древовидный подход к обучению. Этот метод не только повышает производительность модели, но также позволяет нам интерпретировать результаты модели, вычисляя важность признаков.

Будучи моделью на основе DNN, TabNet может выполнять обучение представлению неразмеченных данных. Более того, даже когда размер данных становится большим, обучение проходит гладко, решая его с помощью мини-пакетов с использованием метода стохастического градиентного спуска.

По сути, TabNet — это алгоритм, который сочетает в себе преимущества как алгоритмов обучения дерева, так и алгоритмов обучения DNN. Его производительность настолько впечатляет, что он был признан лучшим решением на таких платформах, как Kaggle.

Как TabNet работает как дерево решений

1. Обучение после уменьшения размерности данных посредством выбора функций

Точно так же, как дерево решений выбирает функцию в каждом узле, а затем разветвляет узел, классифицируя функцию, тем самым уменьшая размеры по мере продвижения обучения, TabNet также предварительно выбирает функции, которые будут использоваться в обучении. Используя только эти функции, он может эффективно найти границу решения на многообразии, что особенно подходит для табличных данных с разреженными характеристиками.

2. Кодер TabNet учится на основе обратной связи с предыдущими результатами, аналогично Weak Learner Tree Ensemble

В ансамбле деревьев слабый ученик переносит значение ошибки предыдущего дерева в следующее дерево, придавая больший вес неверно предсказанным данным и тем самым улучшая процесс обучения. Кодер TabNet работает аналогичным образом, используя значение результата предыдущего кодировщика в качестве обратной связи для обновления маскирования функций, которое будет использоваться в следующем кодировщике. Эта структура, по сути, представляет собой ансамбль кодировщиков, отражающий ансамбль. деревьев в древовидной модели.

Глубокое погружение в TabNet

TabNet минимизирует разреженность, чтобы применить индуктивное смещение, которое предпочтительно для табличных данных. Формируя различные наборы признаков для обучения, он успешно вносит разнообразие в процесс обучения табличных данных.

Выбор этого набора функций основан на обратной связи с предыдущими результатами обработки, таким образом, расставляя приоритеты и фокусируясь на частях, которые считаются наиболее важными. Такой подход позволяет TabNet эффективно учиться и адаптироваться к сложным и разнообразным шаблонам, присущим табличным данным.

Одной из характеристик табличных данных является их разреженность. Это может создавать проблемы при обучении моделей, поскольку эти разреженные точки данных иногда могут действовать как выбросы, искажая процесс обучения модели. Применяя технику, известную как маскирование, для уменьшения размерности данных, TabNet эффективно решает эти проблемы разреженности. Это связано с тем, что все выбранные функции подвергаются линейному преобразованию, тем самым улучшая способность модели определять границу принятия решения. Этот подход помогает гарантировать, что модель надежна и лучше приспособлена для обработки присущих табличным данным сложностей.

В TabNet процесс Encoder использует два преобразователя и функцию маски. Выходные данные преобразователя признаков разделены на две части. Затем эти части используются в качестве входов для полносвязного слоя (FC) и внимательного преобразователя соответственно.

Слой FC берет все выходные данные преобразователя разделенных объектов, объединяя их. Внимательный преобразователь, с другой стороны, использует свою часть разделенного вывода для создания значений маски, которые затем используются для выбора наиболее релевантных или внимательных наборов функций.

Агрегируя эти значения маски, процесс обучения может расставлять приоритеты для определенных функций, различая их в зависимости от их важности. Этот механизм обеспечивает повышение производительности и интерпретируемости модели.

В TabNet преобразователь признаков обучается с помощью признаков, которые были отфильтрованы с помощью маскирования. Как следует из названия «преобразователь», роль преобразователя объектов заключается в преобразовании входных объектов в пространство встраивания.

Пространства вложений, построенные во всех кодировщиках, затем объединяются и проходят через последний полносвязный слой (FC) перед выполнением классификации.

Внимательный преобразователь строит маску, которая будет использоваться в следующем кодировщике. Механизм внимания присваивает веса для представления важности каждой части входных данных, помогая модели сосредоточиться на основных частях входных данных. . Таким образом, следующий обучаемый кодировщик выбирает части функции, на которых следует сосредоточиться, на основе обратной связи, полученной из пространства встраивания предыдущего кодировщика. Затем он переконфигурирует маску, позволяя продолжить процесс выбора признаков.

Эксперимент

TabNet показал превосходную производительность по сравнению с другими методами, включая древовидные модели. Его эффективность получила широкое признание, о чем свидетельствует его использование на многочисленных соревнованиях Kaggle, где он постоянно достигал высоких результатов.

Заключение

Авторы представляют алгоритм глубокой нейронной сети, вдохновленный древовидным обучением, который хорошо сочетается с уникальными характеристиками табличных данных. Сочетая сильные стороны как древовидного обучения, так и нейронных сетей, этот метод позволяет применять различные алгоритмы обучения, такие как обучение представлению и метаобучение, к табличным данным. Эта интеграция открывает дверь в новую эру изучения табличных данных, предлагая свежие перспективы и подходы для лучшего понимания и использования этого типа данных.

Ссылка

https://openreview.net/attachment?id=BylRkAEKDH&name=original_pdf

https://www.kaggle.com/c/osic-легочной-фиброз-прогрессии/дискуссия/189496

https://www.kaggle.com/code/nyanpn/1st-place-public-2nd-place-solution/notebook#Inference