Сеть свертки графов (GCN) приобрела популярность благодаря своей универсальности в решении глубоко взаимосвязанных реальных проблем. Если вам нужно быстро освежить в памяти GNN / GCN, следуйте здесь, прежде чем продолжить. В этом посте мы собираемся осветить некоторые достижения в архитектуре GCN, проще говоря…

Таблица содержания:

  1. Строительные блоки GCN
  2. SAGEConv
  3. GINConv
  4. Сеть Graph Attention (GAT)

Строительные блоки GCN

GCN объединяет сверточный принцип более традиционной сверточной нейронной сети (CNN) в структуру данных графа. Давайте углубимся в это.

Свертка и передача сообщений

Проще говоря, свертка в графе агрегирует информацию от соседних узлов, применяет определенную функцию агрегирования и выводит что-то (например, внедрение новой функции, вывод). Это можно четко проиллюстрировать на следующем рисунке.

Интересующий узел на приведенном выше графике (то есть зеленый узел) получает матрицы признаков от своих непосредственных соседей (то есть синих узлов), применяя среднее значение как свою агрегатную функцию, и выводит новое вложение. Эта операция называется передачей сообщений (MP) и выполняется каждым узлом в указанном графе.

Агрегатная функция

Агрегатная функция является ключевой во многих вариантах GCN. В исходной формулировке GCN, приведенной выше, в качестве агрегатной функции используется нормализация, определяемая следующим образом.

Где D - матрица степеней (т. Е. Сколько соседей имеет каждый узел), A - матрица смежности (т. Е. Как каждый узел связан с другими ), а X - матрица признаков (т. е. как описать узел).

Приведенная выше формула нормализации просто означает операцию усреднения: если у узла больше соседей, чем у других, пропорционально усредните X.

Теперь, когда у нас есть основные строительные блоки, давайте обсудим некоторые из наиболее популярных достижений в GCN.

SAGEConv

(Статья: ICLR)

Представьте себе тренировку сложного графа. Что, если вы добавите еще один узел? Вам нужно заново обучать весь график с нуля?

SAGEConv отходит от этого вопроса, чтобы сделать обучение GCN более надежным с помощью индуктивного обучения. Это делается путем введения обучаемых весовых матриц W1 и W2 в агрегатную функцию и применения операции среднего (аналогично GCN) к матрицам признаков каждого из соседей узла.

После обучения, если вам нужно добавить один дополнительный узел к существующему графу, вам не нужно заново учиться с нуля: вы можете применить полученные матрицы весов для создания нового внедрения для нового узла.

GINConv

(Статья: ICLR)

Что, если вы хотите изучить нелинейное представление (а не традиционное среднее значение, сложение и т. д.) на этапе агрегирования, чтобы точно имитировать реальное сложное взаимодействие между различными узлами?

А вот и GINConv, который передает объединенные матрицы характеристик в обучаемую искусственную нейронную сеть (ИНС).

Где h - ИНС прямого распространения. Формула просто означает: прибавить скалярное значение эпсилон к каждому элементу в матрице смежности, умножить на агрегированные матрицы признаков и передать результаты в обучаемую ИНС.

В документе сообщается, что эта архитектура более стабильна, чем предыдущие варианты GCN, особенно при различении более простых графов.

GAT

(Статья: ICLR)

Что, если бы вы могли добавить в GCN механизм внимания? Сосредоточившись на важных характерных узлах и отказавшись от остальных?

Это то, что GAT стремится достичь, изменяя следующую агрегатную функцию.

Где альфа - коэффициент внимания (подробнее о внимании можно узнать в этом посте), а X - матрица характеристик каждого узла.

Заключение

Мы подошли к концу поста. Здесь мы обсудили некоторые из наиболее важных вариантов GCN. Если вы заметили, большинство этих изменений происходит из-за новой формулировки агрегатных функций: как линейные (среднее, суммирование), так и нелинейные (ИНС, коэффициент внимания) операции. Так что в следующий раз, когда вы будете читать статьи о моделях GCN, обратите внимание на эти варианты!

Подпишитесь на мою информационную рассылку по электронной почте: https://tinyurl.com/2npw2fnz , где я регулярно резюмирую исследовательские работы по ИИ на простом английском языке и в красивой визуализации.