Публикации по теме 'cuda'
Ускорение CuPy с одним графическим процессором
Ускорение CuPy с одним графическим процессором
Резюме
Операции с массивами с графическими процессорами NVIDIA могут обеспечить значительное ускорение вычислений на ЦП, но степень ускорения сильно зависит от операции. Цель этого сообщения в блоге - визуализировать производительность Chainer's CuPy для различных операций. Мы определенно можем подключить Dask , чтобы обеспечить прирост производительности нескольких графических процессоров, как обсуждалось в мартовском посте , но..
Полное руководство по созданию образа Docker, обслуживающего систему машинного обучения в производственной среде.
Полное пошаговое руководство по созданию образа Docker (GPU или CPU) вместе с объяснением всех передовых методов, которым следует следовать, которые будут использоваться для обслуживания любого программного обеспечения на основе машинного обучения.
Создание образа Docker обычно считается тривиальным по сравнению с разработкой других компонентов системы машинного обучения, таких как конвейер данных, обучение модели, обслуживание инфраструктуры и т. Д. Но неэффективный, громоздкий образ..
Вопросы по теме 'cuda'
CUDA: синхронизация потоков
Почти везде, где я читал о программировании с помощью CUDA, упоминается важность того, чтобы все потоки в варпе выполняли одно и то же. В моем коде возникает ситуация, когда я не могу избежать определенного условия. Это выглядит так:
// some math...
24776 просмотров
schedule
22.07.2023
CUDA — лучшее использование или меньший доступ к глобальной памяти?
Мой код CUDA должен работать с (уменьшить до среднего/стандартного значения, рассчитать гистограмму) с 4 массивами, каждый из которых имеет длину 2048 чисел с плавающей запятой и уже хранится в памяти устройства из предыдущих ядер.
Вообще советуют...
1332 просмотров
schedule
23.12.2023
Освобождение памяти CUDA мучительно медленно
Я выделяю несколько массивов с плавающей запятой (довольно больших, т.е. 9 000 000 элементов) на графическом процессоре, используя cudaMalloc((void**)&(storage->data), size * sizeof(float)) . В конце моей программы я освобождаю эту память,...
1501 просмотров
schedule
21.03.2023
Как прочитать текстуру CUDA для тестирования?
Хорошо, пока я могу создать массив на хост-компьютере (типа float) и скопировать его на графический процессор, а затем вернуть его на хост как другой массив (чтобы проверить, была ли копия успешной, по сравнению с оригиналом). ).
Затем я создаю...
8553 просмотров
schedule
01.09.2023
Мое ядро работает только в блоке (0,0)
Я пытаюсь написать простое приложение matrixMultiplication, которое умножает две квадратные матрицы с использованием CUDA. У меня проблема, когда мое ядро правильно вычисляет только блок (0,0) сетки.
Это мой код вызова:
dim3...
178 просмотров
schedule
28.01.2024
Версия драйвера CUDA недостаточна для версии среды выполнения CUDA
Я получил сообщение:
"cutilCheckMsg () CUTIL Ошибка CUDA: ошибка запуска ядра: версии драйвера CUDA недостаточно для версии CUDA времени выполнения."
Пока пытаюсь запустить пример исходного кода. Также происходит с функцией...
102492 просмотров
schedule
04.02.2023
Проблема разыменования указателя CUDA
Я разрабатываю программу, используя cuda sdk и 9600 1 ГБ NVidia Card. В этой программе
0) Ядро передает указатель на массив 2D int размером 3000x6 во входных аргументах.
1) Питомник должен отсортировать его до 3-х уровней (1-й, 2-й и 3-й...
1911 просмотров
schedule
01.12.2022
C++ volatile и перегрузка операторов для приложения CUDA
У меня есть класс A, который я перегружаю оператором =. Однако требуется, чтобы мне нужно было сделать что-то вроде этого:
volatile A x;
A y;
x = y;
который вызвал ошибку при компиляции
error: no operator "=" matches these operands...
3327 просмотров
schedule
13.05.2023
Параллелизм, 4 приложения CUDA, конкурирующие за ресурсы графического процессора
Что произойдет, если четыре одновременно работающих приложения CUDA будут конкурировать за ресурсы в одном графическом процессоре, чтобы они могли переложить работу на графическую карту? В Cuda Programming Guide 3.1 упоминается, что есть определенные...
1289 просмотров
schedule
14.05.2023
как включить cutil.h в linux
Я не знаю, как включить cutil.h в linux, я знаю, где он находится, но я не знаю, как его включить. Идеи пожалуйста.
9575 просмотров
schedule
24.11.2023
GPGPU, OpenCL, CUDA, поток ATI
Скажите, пожалуйста, какие технологии GPGPU уже существуют и какие поставщики оборудования реализуют GPGPU?
С утра читаю статьи на разных сайтах и запутался.
1019 просмотров
schedule
21.06.2023
Есть ли способ документировать файл cuda .cu с использованием doxygen
Поскольку файл cuda «.cu» в основном c, есть ли способ использовать doxygen для создания документации для файлов «.cu»? Я заметил, что NVIDIA использует doxygen для создания документации cuda. Однако, когда я использую doxygen, файлы «.cu»...
2788 просмотров
schedule
21.08.2023
Реализация MySQL с помощью CUDA
Я старший бакалавр по специальности CS. На данный момент я посещаю класс компьютерной архитектуры. Нам нужно сделать проект. Я хочу сделать что-то, связанное с CUDA, где производительность вычислений будет иметь умеренное увеличение по сравнению с...
13399 просмотров
schedule
15.02.2024
Сколько циклов задержки памяти для каждого типа доступа к памяти в OpenCL / CUDA?
Я просмотрел руководство по программированию и руководство по передовой практике, и в нем упоминалось, что доступ к глобальной памяти занимает 400-600 циклов. Я не видел много других типов памяти, таких как кэш текстур, постоянный кеш, разделяемая...
5683 просмотров
schedule
17.02.2022
Какая хорошая альтернатива uint8_t, если она не предусмотрена компилятором?
Я использую nvcc для компиляции ядра CUDA. К сожалению, nvcc не поддерживает uint8_t , хотя поддерживает int8_t (!). Я бы просто не стал использовать unsigned char из соображений переносимости, удобочитаемости и здравомыслия. Есть ли другая...
9581 просмотров
schedule
22.01.2024
CUDA on Thrust: как реализовать приоритетную очередь
мой план состоит в том, чтобы вычислить матрицу расстояний, используя корреляцию Пирсона, и получить q ближайших соседей для каждого узла (q = ln (n)) из матрицы расстояний и поместить их в результирующий вектор. Я сделал это на C++, используя...
2293 просмотров
schedule
11.05.2022
Конфликт банка общей памяти графического процессора
Я пытаюсь понять, как возникают конфликты банков. если у меня есть массив размером 256 в глобальной памяти и у меня есть 256 потоков в одном блоке, и я хочу скопировать массив в общую память. поэтому каждый поток копирует один элемент....
9438 просмотров
schedule
09.07.2022
Генерация случайных чисел из гауссовского распределения в CUDA
Я много искал в Интернете, чтобы найти способ сгенерировать случайные числа на моем устройстве CUDA в ядре. Числа должны быть получены по гауссовскому распределению.
Лучшее, что я нашел , было получено от самой NVIDIA. Это алгоритм Уоллеса,...
3829 просмотров
schedule
29.06.2022
Раскрытие информации Nvidia / Уязвимость памяти в Linux и общая защита памяти ОС
Я думал, что это ожидаемое поведение?
Из: http://classic.chem.msu.su/cgi-bin/ceilidh.exe/gran/gamess/forum/?C35e9ea936bHW-7675-1380-00.htm
Перефразированное резюме: «Работая над портом Linux, мы обнаружили, что вызовы API...
246 просмотров
schedule
11.10.2022
Завершение неактивных потоков во время редукции
Большинство сокращений, которые я когда-либо видел, выглядят так:
for( i = N; i > 0; i /=2 ) {
if( tid < i )
assign-shared;
__syncthreads();
}
if( tid == 0 )
copy-value-to-global;
Я только что изменил это на:
for( i...
324 просмотров
schedule
22.02.2023