Статьи по теме avx [gcc, stack, avx, sse, x86]

Вопросы по теме 'avx'

Как выровнять стек по границе 32 байта в GCC?

Я использую сборку MinGW64 на основе GCC 4.6.1 для 64-битной Windows. Я играю с новыми инструкциями Intel AVX. Мои аргументы командной строки -march=corei7-avx -mtune=corei7-avx -mavx . Но я начал сталкиваться с ошибками сегментации при...

5325 просмотров

04.12.2022

Как я могу обменять младшие 128 бит и старшие 128 бит в 256-битном регистре AVX (YMM)

Я портирую код SSE SIMD для использования 256-битных расширений AVX и не могу найти никаких инструкций, которые будут смешивать / перемешивать / перемещать высокие 128 бит и младшие 128 бит. Сюжетная история: Я действительно хочу, чтобы _1 _ / _...

9392 просмотров

x86 simd avx

25.01.2024

Intel AVX: 256-битная версия точечного произведения для переменных с плавающей запятой двойной точности

Intel Advanced Vector Extensions (AVX) не предлагает точечного произведения в 256-битной версии (регистр YMM) для переменных с плавающей запятой двойной точности . "Почему?" вопрос был очень кратко рассмотрен на другом форуме ( здесь ) и при...

14529 просмотров

c++ performance simd avx

20.03.2024

avx три операнда для sqrt?

Почему инструкция avx sqrt (неупакованная) имеет три операнда? vsqrtsd xmm1, xmm2, xmm3 Означает ли это что-то вроде xmm1=xmm2=sqrt(xmm3) ? Редактировать: Подробный ответ ниже, но вкратце сборочная линия означает: xmm1.low =...

1367 просмотров

instructions x86 simd assembly avx

21.02.2024

Является ли _mm_broadcast_ss быстрее, чем _mm_set1_ps?

Этот код float a = ...; __m256 b = _mm_broadcast_ss(&a) всегда быстрее, чем этот код float a = ...; _mm_set1_ps(a) ? Что, если a определяется как static const float a = ... , а не float a = ... ?

6089 просмотров

vectorization avx

09.01.2023

Явный код simd в D

Возможно ли сделать это сейчас в D из коробки? Я использую компилятор LDC2, если это может помочь. Меня интересует использование встроенных функций AVX.

317 просмотров

simd avx d

05.07.2023

Разбрасывать/собирать в Xeon Phi

Я имел в виду руководство Intel по набору инструкций Xeon Phi и не смог понять, как работают инструкции разброса/сбора. Предположим, у меня есть следующий вектор двойников: A-> |b4|a4|b3|a3|b2|a2|b1|a1| Можно ли создать 4 вектора...

746 просмотров

vectorization avx sse intel-mic xeon-phi

15.05.2023

сокращение с OpenMP с SSE/AVX

Я хочу сделать сокращение массива с помощью OpenMP и SIMD. Я читал, что сокращение в OpenMP эквивалентно: inline float sum_scalar_openmp2(const float a[], const size_t N) { float sum = 0.0f; #pragma omp parallel { float...

2867 просмотров

c openmp avx sse

04.02.2023

Использование AVX с GCC: __builtin_ia32_addpd256 не объявлен

Если я #include <immintrin.h> получаю эту ошибку: ошибка: '__builtin_ia32_addpd256' не был объявлен в этой области Я определил макросы __AVX__ и __FMA__ , чтобы сделать AVX доступным, но, видимо, этого недостаточно. Нет ошибки,...

2564 просмотров

gcc c++ avx fma

21.12.2022

Любые ссылки на инструкции SSE/AVX?

До сих пор я нашел страницы, на которых просто перечислены инструкции, а не то, что они делают, и руководства Intel, в которых есть оглавление, в котором мне указаны имена и что они делают на 1000 страниц позже ... так что я смотрю для небольшого...

96 просмотров

x86 simd assembly avx sse

01.03.2022

8-битная операция сдвига в AVX2 со сдвигом по нулям

Есть ли способ перестроить инструкцию _mm_slli_si128 в AVX2, чтобы сдвинуть регистр __mm256i на x байтов? Кажется, что _mm256_slli_si256 просто выполняет два _mm_slli_si128 на [127: 0] и [255: 128]. Левая смена должна работать на...

2974 просмотров

c simd avx sse avx2

21.02.2022

Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях Intel Xeon Phi?

Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях MIC Intel Xeon Phi? http://en.wikipedia.org/wiki/Xeon_Phi

3245 просмотров

intel simd avx sse intel-mic

21.08.2022

не могу найти материалы про SSE2, Altivec, VMX на сайте Apple Developer

как Пол. R предположил, что есть много ресурсов о SSE2, AVX для разработчиков Apple, но я не смог их найти. Может ли кто-нибудь мне помочь? Кстати, я также ищу архив списка рассылки altivec. Спасибо! Примеры и учебные пособия Intel SSE и AVX

128 просмотров

avx sse sse2 altivec

31.12.2023

Определить архитектуру процессора

У нас возникла проблема с Lapack, скомпилированным на MacBook Pro Late 2013. Компилятор жалуется на неподдерживаемые векторные инструкции при компиляции с -march=native : нет такой инструкции: `vmovss (%rdx), %xmm0' С -march=core2 все...

505 просмотров

python processor gfortran avx waf

10.04.2024

Распараллелить код C с помощью SSE/AVX

я хотел бы распараллелить свой существующий код с помощью команд SSE/AVX. Я полный нуб в этих инструкциях Снипер кода, о котором идет речь, следующий static void inline enc_round(uint32_t b0[4], uint32_t b1[4], const uint32_t **kpp) { for...

541 просмотров

c x86 simd avx sse

24.03.2024

Незаконная инструкция по AVX с Intel Core i7

У меня есть программа Windows x64 C++, скомпилированная MSVC 12 без поддержки AVX (без /arch:AVX в параметрах компиляции). И у меня есть отчет о сбое от одного клиента с Core i7 4700MQ на Win7. Код исключения — c000001d (недопустимая инструкция),...

2124 просмотров

c++ 64-bit avx msvc12

28.07.2022

Можно ли для работы XMM/YMM FP на Intel Haswell использовать FMA вместо ADD?

Этот вопрос предназначен для упакованных плавающих операций с одиночной записью с регистрами XMM/YMM в Haswell. Итак, согласно потрясающей , потрясающей таблице составленный Агнером Фогом, я знаю, что MUL может выполняться как на портах p0,...

278 просмотров

throughput flops avx sse fma

23.06.2023

AVX: выравнивание данных: сбой хранилища, сохранение, загрузка, загрузка не

Я модифицирую нейронную сеть RNNLM для изучения языковой модели. Однако, учитывая размер моего корпуса, он работает очень медленно. Я попытался оптимизировать подпрограмму matrix*vector (на которую приходится 63% общего времени для небольшого набора...

1111 просмотров

c++ avx

03.03.2023

GCC генерирует совершенно другой код, используя -march = native на аналогичных архитектурах.

Я работаю над написанием теста OpenCL на C. В настоящее время он измеряет производительность слитного умножения-накопления как устройства CL, так и системного процессора, используя код C. Затем результаты проходят перекрестную проверку на точность....

1237 просмотров

gcc c assembly avx sse

16.05.2024

Эффективно собирать отдельные байты, разделенные байтовым шагом 4

Я пытаюсь оптимизировать алгоритм, который будет обрабатывать массивные наборы данных, которые могут сильно выиграть от инструкций AVX SIMD. К сожалению, схема входной памяти не оптимальна для требуемых вычислений. Информация должна быть...

1662 просмотров

c avx intrinsics

03.03.2022

Вопросы по теме 'avx'

Похожие вопросы