Вопросы по теме 'avx'
Как выровнять стек по границе 32 байта в GCC?
Я использую сборку MinGW64 на основе GCC 4.6.1 для 64-битной Windows. Я играю с новыми инструкциями Intel AVX. Мои аргументы командной строки -march=corei7-avx -mtune=corei7-avx -mavx .
Но я начал сталкиваться с ошибками сегментации при...
5325 просмотров
schedule
04.12.2022
Как я могу обменять младшие 128 бит и старшие 128 бит в 256-битном регистре AVX (YMM)
Я портирую код SSE SIMD для использования 256-битных расширений AVX и не могу найти никаких инструкций, которые будут смешивать / перемешивать / перемещать высокие 128 бит и младшие 128 бит.
Сюжетная история:
Я действительно хочу, чтобы _1 _ / _...
9392 просмотров
schedule
25.01.2024
Intel AVX: 256-битная версия точечного произведения для переменных с плавающей запятой двойной точности
Intel Advanced Vector Extensions (AVX) не предлагает точечного произведения в 256-битной версии (регистр YMM) для переменных с плавающей запятой двойной точности . "Почему?" вопрос был очень кратко рассмотрен на другом форуме ( здесь ) и при...
14529 просмотров
schedule
20.03.2024
avx три операнда для sqrt?
Почему инструкция avx sqrt (неупакованная) имеет три операнда?
vsqrtsd xmm1, xmm2, xmm3
Означает ли это что-то вроде xmm1=xmm2=sqrt(xmm3) ?
Редактировать: Подробный ответ ниже, но вкратце сборочная линия означает:
xmm1.low =...
1367 просмотров
schedule
21.02.2024
Является ли _mm_broadcast_ss быстрее, чем _mm_set1_ps?
Этот код
float a = ...;
__m256 b = _mm_broadcast_ss(&a)
всегда быстрее, чем этот код
float a = ...;
_mm_set1_ps(a)
?
Что, если a определяется как static const float a = ... , а не float a = ... ?
6089 просмотров
schedule
09.01.2023
Явный код simd в D
Возможно ли сделать это сейчас в D из коробки? Я использую компилятор LDC2, если это может помочь. Меня интересует использование встроенных функций AVX.
317 просмотров
schedule
05.07.2023
Разбрасывать/собирать в Xeon Phi
Я имел в виду руководство Intel по набору инструкций Xeon Phi и не смог понять, как работают инструкции разброса/сбора.
Предположим, у меня есть следующий вектор двойников:
A-> |b4|a4|b3|a3|b2|a2|b1|a1|
Можно ли создать 4 вектора...
746 просмотров
schedule
15.05.2023
сокращение с OpenMP с SSE/AVX
Я хочу сделать сокращение массива с помощью OpenMP и SIMD. Я читал, что сокращение в OpenMP эквивалентно:
inline float sum_scalar_openmp2(const float a[], const size_t N) {
float sum = 0.0f;
#pragma omp parallel
{
float...
2867 просмотров
schedule
04.02.2023
Использование AVX с GCC: __builtin_ia32_addpd256 не объявлен
Если я #include <immintrin.h> получаю эту ошибку:
ошибка: '__builtin_ia32_addpd256' не был объявлен в этой области
Я определил макросы __AVX__ и __FMA__ , чтобы сделать AVX доступным, но, видимо, этого недостаточно. Нет ошибки,...
2564 просмотров
schedule
21.12.2022
Любые ссылки на инструкции SSE/AVX?
До сих пор я нашел страницы, на которых просто перечислены инструкции, а не то, что они делают, и руководства Intel, в которых есть оглавление, в котором мне указаны имена и что они делают на 1000 страниц позже ... так что я смотрю для небольшого...
96 просмотров
schedule
01.03.2022
8-битная операция сдвига в AVX2 со сдвигом по нулям
Есть ли способ перестроить инструкцию _mm_slli_si128 в AVX2, чтобы сдвинуть регистр __mm256i на x байтов?
Кажется, что _mm256_slli_si256 просто выполняет два _mm_slli_si128 на [127: 0] и [255: 128].
Левая смена должна работать на...
2974 просмотров
schedule
21.02.2022
Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях Intel Xeon Phi?
Есть ли инструкции SIMD (SSE / AVX) в x86-совместимых ускорителях MIC Intel Xeon Phi?
http://en.wikipedia.org/wiki/Xeon_Phi
3245 просмотров
schedule
21.08.2022
не могу найти материалы про SSE2, Altivec, VMX на сайте Apple Developer
как Пол. R предположил, что есть много ресурсов о SSE2, AVX для разработчиков Apple, но я не смог их найти. Может ли кто-нибудь мне помочь? Кстати, я также ищу архив списка рассылки altivec.
Спасибо!
Примеры и учебные пособия Intel SSE и AVX
128 просмотров
schedule
31.12.2023
Определить архитектуру процессора
У нас возникла проблема с Lapack, скомпилированным на MacBook Pro Late 2013. Компилятор жалуется на неподдерживаемые векторные инструкции при компиляции с -march=native :
нет такой инструкции: `vmovss (%rdx), %xmm0'
С -march=core2 все...
505 просмотров
schedule
10.04.2024
Распараллелить код C с помощью SSE/AVX
я хотел бы распараллелить свой существующий код с помощью команд SSE/AVX. Я полный нуб в этих инструкциях
Снипер кода, о котором идет речь, следующий
static void inline enc_round(uint32_t b0[4], uint32_t b1[4], const uint32_t **kpp)
{
for...
541 просмотров
schedule
24.03.2024
Незаконная инструкция по AVX с Intel Core i7
У меня есть программа Windows x64 C++, скомпилированная MSVC 12 без поддержки AVX (без /arch:AVX в параметрах компиляции).
И у меня есть отчет о сбое от одного клиента с Core i7 4700MQ на Win7. Код исключения — c000001d (недопустимая инструкция),...
2124 просмотров
schedule
28.07.2022
Можно ли для работы XMM/YMM FP на Intel Haswell использовать FMA вместо ADD?
Этот вопрос предназначен для упакованных плавающих операций с одиночной записью с регистрами XMM/YMM в Haswell.
Итак, согласно потрясающей , потрясающей таблице составленный Агнером Фогом, я знаю, что MUL может выполняться как на портах p0,...
278 просмотров
schedule
23.06.2023
AVX: выравнивание данных: сбой хранилища, сохранение, загрузка, загрузка не
Я модифицирую нейронную сеть RNNLM для изучения языковой модели. Однако, учитывая размер моего корпуса, он работает очень медленно. Я попытался оптимизировать подпрограмму matrix*vector (на которую приходится 63% общего времени для небольшого набора...
1111 просмотров
schedule
03.03.2023
GCC генерирует совершенно другой код, используя -march = native на аналогичных архитектурах.
Я работаю над написанием теста OpenCL на C. В настоящее время он измеряет производительность слитного умножения-накопления как устройства CL, так и системного процессора, используя код C. Затем результаты проходят перекрестную проверку на точность....
1237 просмотров
schedule
16.05.2024
Эффективно собирать отдельные байты, разделенные байтовым шагом 4
Я пытаюсь оптимизировать алгоритм, который будет обрабатывать массивные наборы данных, которые могут сильно выиграть от инструкций AVX SIMD. К сожалению, схема входной памяти не оптимальна для требуемых вычислений. Информация должна быть...
1662 просмотров
schedule
03.03.2022