Вопросы по теме 'ptx'

PTX — получить значение/адрес
Я не понимаю, как инструкция mov работает в PTX. mov.type d, a это перемещает a в d, если a является регистром или непосредственным значением. Кстати, это может переместиться в d по адресу a, если a является переменной в глобальном,...
182 просмотров
schedule 26.05.2023

Является ли встроенный PTX более эффективным, чем код C/C++?
Я заметил, что код PTX допускает некоторые инструкции со сложной семантикой, такие как извлечение битового поля ( bfe ), найти старший незнаковый бит ( bfind ) и подсчет населения ( popc ). Является ли более эффективным использовать их явно,...
691 просмотров
schedule 14.01.2024

В чем разница между инструкциями prefetch и prefetch ptx?
здесь в В документации указано, что инструкции prefetch и prefetchu ptx " предварительно извлекают строку, содержащую общий адрес на указанном уровне иерархии памяти, в указанном пространстве состояний ". Также упоминается, что синтаксис...
669 просмотров
schedule 20.02.2024

Общее расположение пространства памяти NVPTX в архитектуре
В NVPTX(LLVM IR) для программ CUDA есть идентификаторы адресного пространства памяти от 0 до 5 (см. Таблицу ниже). Я видел в той же программе LLVM IR, что адреса памяти идентифицируются как «Generic» или другие типы, как показано на...
499 просмотров
schedule 04.07.2022

Чтение текстуры CUDA PTX f32.f32
Можно ли читать из текстуры CUDA, используя индекс с плавающей запятой напрямую, например. могу ли я выполнить выборку текстуры с помощью tex.1d.v4.f32.f32 . Похоже, что при просмотре файлов .ptx это экономит две инструкции, и это отражается в...
137 просмотров
schedule 02.05.2023

CUDA: как использовать -arch и -code и SM против COMPUTE
Я до сих пор не уверен, как правильно указать архитектуры для генерации кода при сборке с помощью nvcc. Я знаю, что в мой двоичный файл встроен машинный код, а также код PTX, и что им можно управлять с помощью переключателей контроллера -code и...
30896 просмотров
schedule 01.07.2022

Реализация CUDA для кода MATLAB
Недавно я приобрел графический процессор P100 в надежде ускорить параллельный код, и мне нужна помощь, чтобы решить, как преобразовать код MATLAB в код CUDA (я отказался от простого gpuarrays в MATLAB). Я экспериментировал с ядрами .ptx и...
244 просмотров
schedule 04.12.2022