Вопросы по теме 'cuda-streams'

Поток CUDA медленнее обычного ядра
Я пытаюсь понять потоки CUDA, и я сделал свою первую программу с потоками, но она медленнее, чем обычная функция ядра... почему этот код медленнее cudaMemcpyAsync(pole_dev, pole, size, cudaMemcpyHostToDevice, stream_1);...
1294 просмотров

Сколько операций cudaMemcpyAsync можно выполнять одновременно?
Рассмотрим следующий случай: //thread 0 on device 0: cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0; ... //thread 1 on device 1: cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1; Могут ли две операции...
429 просмотров
schedule 28.07.2022

Параллельные уникальные ядра на одном мультипроцессоре?
Возможно ли, используя потоки, иметь несколько уникальных ядер на одном потоковом мультипроцессоре в графических процессорах Kepler 3.5? т.е. запустить 30 ядер размера <<<1,1024>>> одновременно на графическом процессоре Kepler с...
289 просмотров
schedule 06.05.2023

Почему запуск cudaMemcpyAsync и ядра блокируется даже при асинхронном потоке?
Рассмотрим следующую программу для постановки в очередь некоторой работы с неблокирующим потоком графического процессора: #include <iostream> using clock_value_t = long long; __device__ void gpu_sleep(clock_value_t sleep_cycles) {...
1995 просмотров
schedule 30.03.2022

Выполнение другой модели параллельно прямому проходу модели с помощью PyTorch
Я пытаюсь внести некоторые изменения в модель ResNet-18 в PyTorch, чтобы вызвать выполнение другой вспомогательной обученной модели, которая принимает выходные данные промежуточного уровня ResNet в конце каждого блока ResNet в качестве входных данных...
719 просмотров

CUDA cudaMemcpyAsync с использованием одного потока для размещения
У меня есть одно ядро, которое обрабатывает данные для двух параметров (dev_out_1 и dev_out_2), используя один поток . Я хотел параллельно скопировать данные с устройства на хост . мое требование - использовать один поток и параллельно копировать...
37 просмотров
schedule 10.01.2024