Мне нужно реализовать эффективную версию свертки изображений с неразделяемыми ядрами (поэтому CUDA sdk полезен только для примера FFT, но четко указано, что он отлично работает только для больших размеров ядра)
Помимо реализации с нуля, как мне кажется, мне нужно работать с матрицами и ядрами априори неизвестных размеров (они могут быть 10x10 как 20.000x20.000, я просто не могу это предсказать)
Каковы ваши предложения относительно примера БПФ? (если это ваш лучший выбор, пожалуйста, дайте мне хорошую точку, чтобы начать выяснять, как это работает)
И для второго выбора (вручную реализующего свертку самостоятельно), какие предложения по максимизации объединения памяти?