Пусть G — граф. Итак, G — это множество узлов и множество связей. Мне нужно найти быстрый способ разбить граф. Граф, над которым я сейчас работаю, имеет только 120*160 узлов, но, возможно, вскоре я буду работать над эквивалентной задачей в другом контексте (не в медицине, а в разработке веб-сайтов) с миллионами узлов.
Итак, что я сделал, так это сохранил все ссылки в матрице графа:
M=numpy.mat(numpy.zeros((len(data.keys()),len(data.keys()))))
Теперь M содержит 1 в позиции s,t, если узел s соединен с узлом t. Я удостоверяюсь, что M симметричен M[s,t]=M[t,s] и каждый узел связан с самим собой M[s,s]=1.
Если я хорошо помню, если я умножу M на M, результатом будет матрица, представляющая граф, соединяющий вершины, достигнутые за два шага.
Поэтому я продолжаю умножать М на себя, пока количество нулей в матрице больше не будет уменьшаться. Теперь у меня есть список подключенных компонентов. И теперь мне нужно кластеризовать эту матрицу.
До сих пор я очень доволен алгоритмом. Я думаю, что это легко, элегантно и достаточно быстро. У меня проблемы с этой частью.
По сути, мне нужно разбить этот граф на связанные компоненты.
Я могу просмотреть все узлы и посмотреть, к чему они подключены.
А как насчет сортировки матрицы по переупорядочиванию строк. Но я не знаю, возможно ли это сделать.
Далее следует код:
def findzeros(M):
nZeros=0
for t in M.flat:
if not t:
nZeros+=1
return nZeros
M=numpy.mat(numpy.zeros((len(data.keys()),len(data.keys()))))
for s in data.keys():
MatrixCells[s,s]=1
for t in data.keys():
if t<s:
if (scipy.corrcoef(data[t],data[s])[0,1])>threashold:
M[s,t]=1
M[t,s]=1
nZeros=findzeros(M)
M2=M*M
nZeros2=findzeros(M2)
while (nZeros-nZeros2):
nZeros=nZeros2
M=M2
M2=M*M
nZeros2=findzeros(M2)
Редактировать:
Было предложено использовать разложение SVD. Вот простой пример задачи на графе 5х5. Мы будем использовать это, так как с квадратной матрицей 19200x19200 не так просто увидеть кластеры.
import numpy
import scipy
M=numpy.mat(numpy.zeros((5,5)))
M[1,3]=1
M[3,1]=1
M[1,1]=1
M[2,2]=1
M[3,3]=1
M[4,4]=1
M[0,0]=1
print M
u,s,vh = numpy.linalg.linalg.svd(M)
print u
print s
print vh
По сути, здесь 4 кластера: (0), (1,3), (2), (4). Но я все еще не понимаю, как svn может помочь в этом контексте.