Ошибка доступа к памяти с помощью _mm512_i64gather_pd()

Я пытаюсь использовать очень простой пример инструкций по сбору AVX-512:

double __attribute__((aligned(64))) array3[17] = {1.0,  2.0,  3.0,  4.0,  5.0,  6.0,  7.0,  8.0,
                     9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0,
                    17.0};
int __attribute__((aligned(64))) i_index_ar[16] = {1,  2,  3,  4,  5,  6,  7,  8, 9, 10, 11, 12, 13, 14, 15, 16};
__m512i i_index = _mm512_load_epi64(i_index_ar);
__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);

К сожалению, мой последний вызов _mm512_i64gather_pd приводит к ошибке доступа к памяти (память сбрасывается).

Сообщение об ошибке на немецком языке: Speicherzugriffsfehler (Speicherabzug geschrieben)

Я использую Intel Xeon Phi (KNL) 7210.

edit: ошибка здесь заключалась в том, что я использовал 32-битные целые числа с 64-битными инструкциями загрузки, а масштаб в _mm512_i64gather_pd должен быть 8 или sizeof(double).


person boraas    schedule 20.12.2018    source источник
comment
Если ваши индексы действительно такие простые, вы должны просто использовать невыровненную загрузку SIMD, а не сбор. Использование i32gather было бы намного лучше, чем использование 64-битных индексов, экономя пропускную способность памяти. VPGATHERQPD и VPGATHERDPD имеют одинаковую производительность в KNL, поэтому нет никаких недостатков в использовании 32-битных индексов с соответствующей инструкцией сбора. Меньший объем кэш-памяти определенно лучше.   -  person Peter Cordes    schedule 20.12.2018
comment
спасибо, но я упростил пример, чтобы понять эту инструкцию. Буду рассматривать 32-битную версию.   -  person boraas    schedule 21.12.2018


Ответы (1)


Я думаю, вам нужно установить scale на sizeof(double), а не на 1.

Изменять:

__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], 1);

to:

__m512d a7AVX = _mm512_i64gather_pd(i_index, &array3[0], sizeof(double));

См. также: этот вопрос и его ответы для более полного объяснения нагрузки Intel SIMD и ее использования.

Еще одна проблема: ваши индексы должны быть 64-битными целыми, поэтому измените:

int __attribute__((aligned(64))) i_index_ar[16] = {1,  2,  3,  4,  5,  6,  7,  8, 9, ...

to:

int64_t __attribute__((aligned(64))) i_index_ar[16] = {1,  2,  3,  4,  5,  6,  7,  8, 9, ...
person Paul R    schedule 20.12.2018
comment
@boraas: или лучше используйте _mm512_i32gather_pd (vgatherdpd): индексы двойного слова, если ваш индекс данные 32-битные. В противном случае вы можете загрузить его с помощью vpmovzxdq или vpmovsxdq (ноль или расширение знака до 64-битного) чтобы получить 64-битный индексный вектор. - person Peter Cordes; 20.12.2018