Публикации по теме 'cuda'


Ускорение CuPy с одним графическим процессором
Ускорение CuPy с одним графическим процессором Резюме Операции с массивами с графическими процессорами NVIDIA могут обеспечить значительное ускорение вычислений на ЦП, но степень ускорения сильно зависит от операции. Цель этого сообщения в блоге - визуализировать производительность Chainer's CuPy для различных операций. Мы определенно можем подключить Dask , чтобы обеспечить прирост производительности нескольких графических процессоров, как обсуждалось в мартовском посте , но..

Полное руководство по созданию образа Docker, обслуживающего систему машинного обучения в производственной среде.
Полное пошаговое руководство по созданию образа Docker (GPU или CPU) вместе с объяснением всех передовых методов, которым следует следовать, которые будут использоваться для обслуживания любого программного обеспечения на основе машинного обучения. Создание образа Docker обычно считается тривиальным по сравнению с разработкой других компонентов системы машинного обучения, таких как конвейер данных, обучение модели, обслуживание инфраструктуры и т. Д. Но неэффективный, громоздкий образ..

Вопросы по теме 'cuda'

CUDA: синхронизация потоков
Почти везде, где я читал о программировании с помощью CUDA, упоминается важность того, чтобы все потоки в варпе выполняли одно и то же. В моем коде возникает ситуация, когда я не могу избежать определенного условия. Это выглядит так: // some math...
24776 просмотров
schedule 22.07.2023

CUDA — лучшее использование или меньший доступ к глобальной памяти?
Мой код CUDA должен работать с (уменьшить до среднего/стандартного значения, рассчитать гистограмму) с 4 массивами, каждый из которых имеет длину 2048 чисел с плавающей запятой и уже хранится в памяти устройства из предыдущих ядер. Вообще советуют...
1332 просмотров
schedule 23.12.2023

Освобождение памяти CUDA мучительно медленно
Я выделяю несколько массивов с плавающей запятой (довольно больших, т.е. 9 000 000 элементов) на графическом процессоре, используя cudaMalloc((void**)&(storage->data), size * sizeof(float)) . В конце моей программы я освобождаю эту память,...
1501 просмотров
schedule 21.03.2023

Как прочитать текстуру CUDA для тестирования?
Хорошо, пока я могу создать массив на хост-компьютере (типа float) и скопировать его на графический процессор, а затем вернуть его на хост как другой массив (чтобы проверить, была ли копия успешной, по сравнению с оригиналом). ). Затем я создаю...
8553 просмотров
schedule 01.09.2023

Мое ядро ​​работает только в блоке (0,0)
Я пытаюсь написать простое приложение matrixMultiplication, которое умножает две квадратные матрицы с использованием CUDA. У меня проблема, когда мое ядро ​​правильно вычисляет только блок (0,0) сетки. Это мой код вызова: dim3...
178 просмотров
schedule 28.01.2024

Версия драйвера CUDA недостаточна для версии среды выполнения CUDA
Я получил сообщение: "cutilCheckMsg () CUTIL Ошибка CUDA: ошибка запуска ядра: версии драйвера CUDA недостаточно для версии CUDA времени выполнения." Пока пытаюсь запустить пример исходного кода. Также происходит с функцией...
102492 просмотров
schedule 04.02.2023

Проблема разыменования указателя CUDA
Я разрабатываю программу, используя cuda sdk и 9600 1 ГБ NVidia Card. В этой программе 0) Ядро передает указатель на массив 2D int размером 3000x6 во входных аргументах. 1) Питомник должен отсортировать его до 3-х уровней (1-й, 2-й и 3-й...
1911 просмотров
schedule 01.12.2022

C++ volatile и перегрузка операторов для приложения CUDA
У меня есть класс A, который я перегружаю оператором =. Однако требуется, чтобы мне нужно было сделать что-то вроде этого: volatile A x; A y; x = y; который вызвал ошибку при компиляции error: no operator "=" matches these operands...
3327 просмотров
schedule 13.05.2023

Параллелизм, 4 приложения CUDA, конкурирующие за ресурсы графического процессора
Что произойдет, если четыре одновременно работающих приложения CUDA будут конкурировать за ресурсы в одном графическом процессоре, чтобы они могли переложить работу на графическую карту? В Cuda Programming Guide 3.1 упоминается, что есть определенные...
1289 просмотров
schedule 14.05.2023

как включить cutil.h в linux
Я не знаю, как включить cutil.h в linux, я знаю, где он находится, но я не знаю, как его включить. Идеи пожалуйста.
9575 просмотров
schedule 24.11.2023

GPGPU, OpenCL, CUDA, поток ATI
Скажите, пожалуйста, какие технологии GPGPU уже существуют и какие поставщики оборудования реализуют GPGPU? С утра читаю статьи на разных сайтах и ​​запутался.
1019 просмотров
schedule 21.06.2023

Есть ли способ документировать файл cuda .cu с использованием doxygen
Поскольку файл cuda «.cu» в основном c, есть ли способ использовать doxygen для создания документации для файлов «.cu»? Я заметил, что NVIDIA использует doxygen для создания документации cuda. Однако, когда я использую doxygen, файлы «.cu»...
2788 просмотров
schedule 21.08.2023

Реализация MySQL с помощью CUDA
Я старший бакалавр по специальности CS. На данный момент я посещаю класс компьютерной архитектуры. Нам нужно сделать проект. Я хочу сделать что-то, связанное с CUDA, где производительность вычислений будет иметь умеренное увеличение по сравнению с...
13399 просмотров
schedule 15.02.2024

Сколько циклов задержки памяти для каждого типа доступа к памяти в OpenCL / CUDA?
Я просмотрел руководство по программированию и руководство по передовой практике, и в нем упоминалось, что доступ к глобальной памяти занимает 400-600 циклов. Я не видел много других типов памяти, таких как кэш текстур, постоянный кеш, разделяемая...
5683 просмотров
schedule 17.02.2022

Какая хорошая альтернатива uint8_t, если она не предусмотрена компилятором?
Я использую nvcc для компиляции ядра CUDA. К сожалению, nvcc не поддерживает uint8_t , хотя поддерживает int8_t (!). Я бы просто не стал использовать unsigned char из соображений переносимости, удобочитаемости и здравомыслия. Есть ли другая...
9581 просмотров
schedule 22.01.2024

CUDA on Thrust: как реализовать приоритетную очередь
мой план состоит в том, чтобы вычислить матрицу расстояний, используя корреляцию Пирсона, и получить q ближайших соседей для каждого узла (q = ln (n)) из матрицы расстояний и поместить их в результирующий вектор. Я сделал это на C++, используя...
2293 просмотров
schedule 11.05.2022

Конфликт банка общей памяти графического процессора
Я пытаюсь понять, как возникают конфликты банков. если у меня есть массив размером 256 в глобальной памяти и у меня есть 256 потоков в одном блоке, и я хочу скопировать массив в общую память. поэтому каждый поток копирует один элемент....
9438 просмотров
schedule 09.07.2022

Генерация случайных чисел из гауссовского распределения в CUDA
Я много искал в Интернете, чтобы найти способ сгенерировать случайные числа на моем устройстве CUDA в ядре. Числа должны быть получены по гауссовскому распределению. Лучшее, что я нашел , было получено от самой NVIDIA. Это алгоритм Уоллеса,...
3829 просмотров
schedule 29.06.2022

Раскрытие информации Nvidia / Уязвимость памяти в Linux и общая защита памяти ОС
Я думал, что это ожидаемое поведение? Из: http://classic.chem.msu.su/cgi-bin/ceilidh.exe/gran/gamess/forum/?C35e9ea936bHW-7675-1380-00.htm Перефразированное резюме: «Работая над портом Linux, мы обнаружили, что вызовы API...
246 просмотров
schedule 11.10.2022

Завершение неактивных потоков во время редукции
Большинство сокращений, которые я когда-либо видел, выглядят так: for( i = N; i > 0; i /=2 ) { if( tid < i ) assign-shared; __syncthreads(); } if( tid == 0 ) copy-value-to-global; Я только что изменил это на: for( i...
324 просмотров
schedule 22.02.2023