матрица близости в питоне

Как лучше всего вычислить матрицу расстояния/близости для очень больших разреженных векторов? Например, вам дана следующая матрица проектирования, где каждая строка представляет собой 68771-мерный разреженный вектор.

designMatrix ‹5830x68771 разреженная матрица типа '' с 1229041 сохраненным элементом в формате Compressed Sparse Row>


person Oliver    schedule 18.03.2011    source источник


Ответы (1)


Вы пробовали процедуры в scipy.spatial.distance?

http://docs.scipy.org/doc/scipy/reference/spatial.distance.html

Если это вынуждает вас переходить к плотному представлению, возможно, вам лучше свернуть собственное, в зависимости от плотности ненулевых элементов. Вы можете выдавить нули, сохранив при этом сопоставление между новым и исходным индексами, вычислить попарные расстояния для оставшихся ненулевых элементов, а затем использовать индексирование для обратного сопоставления.

person JoshAdel    schedule 18.03.2011