Вопросы по теме 'avx'

Как выровнять стек по границе 32 байта в GCC?
Я использую сборку MinGW64 на основе GCC 4.6.1 для 64-битной Windows. Я играю с новыми инструкциями Intel AVX. Мои аргументы командной строки -march=corei7-avx -mtune=corei7-avx -mavx . Но я начал сталкиваться с ошибками сегментации при...
5325 просмотров
schedule 04.12.2022

Как я могу обменять младшие 128 бит и старшие 128 бит в 256-битном регистре AVX (YMM)
Я портирую код SSE SIMD для использования 256-битных расширений AVX и не могу найти никаких инструкций, которые будут смешивать / перемешивать / перемещать высокие 128 бит и младшие 128 бит. Сюжетная история: Я действительно хочу, чтобы _1 _ / _...
9392 просмотров
schedule 25.01.2024

Intel AVX: 256-битная версия точечного произведения для переменных с плавающей запятой двойной точности
Intel Advanced Vector Extensions (AVX) не предлагает точечного произведения в 256-битной версии (регистр YMM) для переменных с плавающей запятой двойной точности . "Почему?" вопрос был очень кратко рассмотрен на другом форуме ( здесь ) и при...
14529 просмотров
schedule 20.03.2024

avx три операнда для sqrt?
Почему инструкция avx sqrt (неупакованная) имеет три операнда? vsqrtsd xmm1, xmm2, xmm3 Означает ли это что-то вроде xmm1=xmm2=sqrt(xmm3) ? Редактировать: Подробный ответ ниже, но вкратце сборочная линия означает: xmm1.low =...
1367 просмотров
schedule 21.02.2024

Является ли _mm_broadcast_ss быстрее, чем _mm_set1_ps?
Этот код float a = ...; __m256 b = _mm_broadcast_ss(&a) всегда быстрее, чем этот код float a = ...; _mm_set1_ps(a) ? Что, если a определяется как static const float a = ... , а не float a = ... ?
6089 просмотров
schedule 09.01.2023

Явный код simd в D
Возможно ли сделать это сейчас в D из коробки? Я использую компилятор LDC2, если это может помочь. Меня интересует использование встроенных функций AVX.
317 просмотров
schedule 05.07.2023

Разбрасывать/собирать в Xeon Phi
Я имел в виду руководство Intel по набору инструкций Xeon Phi и не смог понять, как работают инструкции разброса/сбора. Предположим, у меня есть следующий вектор двойников: A-> |b4|a4|b3|a3|b2|a2|b1|a1| Можно ли создать 4 вектора...
746 просмотров
schedule 15.05.2023

сокращение с OpenMP с SSE/AVX
Я хочу сделать сокращение массива с помощью OpenMP и SIMD. Я читал, что сокращение в OpenMP эквивалентно: inline float sum_scalar_openmp2(const float a[], const size_t N) { float sum = 0.0f; #pragma omp parallel { float...
2867 просмотров
schedule 04.02.2023

Использование AVX с GCC: __builtin_ia32_addpd256 не объявлен
Если я #include <immintrin.h> получаю эту ошибку: ошибка: '__builtin_ia32_addpd256' не был объявлен в этой области Я определил макросы __AVX__ и __FMA__ , чтобы сделать AVX доступным, но, видимо, этого недостаточно. Нет ошибки,...
2564 просмотров
schedule 21.12.2022

Любые ссылки на инструкции SSE/AVX?
До сих пор я нашел страницы, на которых просто перечислены инструкции, а не то, что они делают, и руководства Intel, в которых есть оглавление, в котором мне указаны имена и что они делают на 1000 страниц позже ... так что я смотрю для небольшого...
96 просмотров
schedule 01.03.2022

8-битная операция сдвига в AVX2 со сдвигом по нулям
Есть ли способ перестроить инструкцию _mm_slli_si128 в AVX2, чтобы сдвинуть регистр __mm256i на x байтов? Кажется, что _mm256_slli_si256 просто выполняет два _mm_slli_si128 на [127: 0] и [255: 128]. Левая смена должна работать на...
2974 просмотров
schedule 21.02.2022

Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях Intel Xeon Phi?
Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях MIC Intel Xeon Phi? http://en.wikipedia.org/wiki/Xeon_Phi
3245 просмотров
schedule 21.08.2022

не могу найти материалы про SSE2, Altivec, VMX на сайте Apple Developer
как Пол. R предположил, что есть много ресурсов о SSE2, AVX для разработчиков Apple, но я не смог их найти. Может ли кто-нибудь мне помочь? Кстати, я также ищу архив списка рассылки altivec. Спасибо! Примеры и учебные пособия Intel SSE и AVX
128 просмотров
schedule 31.12.2023

Определить архитектуру процессора
У нас возникла проблема с Lapack, скомпилированным на MacBook Pro Late 2013. Компилятор жалуется на неподдерживаемые векторные инструкции при компиляции с -march=native : нет такой инструкции: `vmovss (%rdx), %xmm0' С -march=core2 все...
505 просмотров
schedule 10.04.2024

Распараллелить код C с помощью SSE/AVX
я хотел бы распараллелить свой существующий код с помощью команд SSE/AVX. Я полный нуб в этих инструкциях Снипер кода, о котором идет речь, следующий static void inline enc_round(uint32_t b0[4], uint32_t b1[4], const uint32_t **kpp) { for...
541 просмотров
schedule 24.03.2024

Незаконная инструкция по AVX с Intel Core i7
У меня есть программа Windows x64 C++, скомпилированная MSVC 12 без поддержки AVX (без /arch:AVX в параметрах компиляции). И у меня есть отчет о сбое от одного клиента с Core i7 4700MQ на Win7. Код исключения — c000001d (недопустимая инструкция),...
2124 просмотров
schedule 28.07.2022

Можно ли для работы XMM/YMM FP на Intel Haswell использовать FMA вместо ADD?
Этот вопрос предназначен для упакованных плавающих операций с одиночной записью с регистрами XMM/YMM в Haswell. Итак, согласно потрясающей , потрясающей таблице составленный Агнером Фогом, я знаю, что MUL может выполняться как на портах p0,...
278 просмотров
schedule 23.06.2023

AVX: выравнивание данных: сбой хранилища, сохранение, загрузка, загрузка не
Я модифицирую нейронную сеть RNNLM для изучения языковой модели. Однако, учитывая размер моего корпуса, он работает очень медленно. Я попытался оптимизировать подпрограмму matrix*vector (на которую приходится 63% общего времени для небольшого набора...
1111 просмотров
schedule 03.03.2023

GCC генерирует совершенно другой код, используя -march = native на аналогичных архитектурах.
Я работаю над написанием теста OpenCL на C. В настоящее время он измеряет производительность слитного умножения-накопления как устройства CL, так и системного процессора, используя код C. Затем результаты проходят перекрестную проверку на точность....
1237 просмотров
schedule 16.05.2024

Эффективно собирать отдельные байты, разделенные байтовым шагом 4
Я пытаюсь оптимизировать алгоритм, который будет обрабатывать массивные наборы данных, которые могут сильно выиграть от инструкций AVX SIMD. К сожалению, схема входной памяти не оптимальна для требуемых вычислений. Информация должна быть...
1662 просмотров
schedule 03.03.2022