Я занимаюсь исследованием графического процессора в кластерных средах, используя для связи mpi.
Чтобы сравнить скорость, я думаю, что в create:
Умножение матрицы только для GPU, ок.
Теперь только CPU MatrixMulti, ок.
Но я не могу найти хорошую реализацию умножения матриц CUDA + MPI.
У кого-нибудь есть намек на то, где я могу найти это? Или предложите одну реализацию.