Кто-нибудь знает об оптимизированном ядре CUDA для вычисления расстояния Хэмминга в стиле GEMM между двумя матрицами размерности A x N и N x B? Проблема почти идентична GEMM, но вместо этого вычисляет сумму (a_n! = B_n) для каждого вектора {1 ... N} вместо умножения и суммирования каждого элемента вектора.
Я хотел проверить, прежде чем писать свою собственную, поскольку эта проблема довольно распространена, но мне пока не удалось найти для нее код. Предложения по изменению кода тоже были бы отличными.
РЕДАКТИРОВАТЬ:
В дополнение к приведенным ниже предложениям кангшиин я обнаружил, что это пошаговое руководство по оптимизированной реализации SGEMM быть чрезвычайно полезным в понимании шагов, выходящих за рамки простого примера умножения матриц совместно используемой памяти в Руководстве по программированию CUDA C.