Вопросы по теме 'neon'

Возможна ли инверсия матрицы 3x3 с использованием инструкций SIMD?
Я использую процессор на базе ARM Cortex-A8, и у меня есть несколько мест, где я вычисляю обратные операции 3x3 Matrix. Поскольку процессор Cortex-a8 имеет процессор NEON SIMD, мне интересно использовать этот сопроцессор для инверсии матрицы 3x3, я...
3361 просмотров
schedule 02.03.2022

оптимизация arm asm/neon для обработки изображений
В настоящее время я работаю над приложением для рисования на iOS. Я использую прямое рисование в буфере NSMutableData и применяю смешивание с моей кистью следующим образом: - (void) combineColorDestination:(unsigned char*) dest source:(unsigned...
847 просмотров
schedule 27.10.2023

Путаница в использовании Cortex A9 NEON и VFP
Я пытаюсь создать библиотеку для процессора Cortex A9 ARM (точнее, OMAP4), и я немного запутался относительно того, что и когда использовать NEON против VFP в контексте операций с плавающей запятой и SIMD . Следует отметить, что я знаю разницу между...
21660 просмотров
schedule 28.01.2023

Перенос SSE2 на внутренние компоненты Arm NEON
У меня есть следующий код в SSE2 intrinsincs. Он обрабатывает ввод с Kinect. __m128i md = _mm_setr_epi16((r0<<3) | (r1>>5), ((r1<<6) | (r2>>2) ), ((r2<<9) | (r3<<1) | (r4>>7) ), ((r4<<4) |...
827 просмотров
schedule 10.09.2023

Преобразование короткого массива в формат с плавающей запятой с использованием ARM neon
Я только что начал пытаться оптимизировать код Android с помощью NEON. Однако у меня есть несколько проблем. Основная проблема заключается в том, что я действительно не могу понять, как сделать быстрое преобразование 16-битного числа в число с...
2520 просмотров
schedule 10.08.2023

ARM NEON: сравнение 128-битных значений
Мне интересно найти самый быстрый способ (наименьшее количество циклов) сравнения значений, хранящихся в регистрах NEON (скажем, Q0 и Q3) на ядре Cortex-A9 (разрешены инструкции VFP). Пока у меня есть следующее: (1) Использование сравнения VFP с...
1964 просмотров
schedule 11.12.2023

ARM Assembler NEON — Повышение производительности
Я преобразовал часть алгоритма из C в ARM Assembler (используя инструкции NEON), но теперь он в 2 раза медленнее, чем исходный код C. Как я могу улучшить производительность? Целью является ARM Cortex-A9. Алгоритм считывает 64-битные значения из...
4050 просмотров
schedule 31.12.2022

Архитектуры ARM для процессоров Android
У нас есть код, зависящий от процессора Android, и я хотел бы узнать, сколько устройств, используемых клиентами, имеют ARMv6/ARMv7, есть ли еще ARM v5, сколько ARMv6 имеют VFP, каков процент Tegra или Neon. Есть подсказки, где можно найти такую...
3687 просмотров
schedule 21.03.2024

Сборка ARM NEON на Windows Phone 8 не работает
Я пытаюсь вызвать функцию, закодированную в сборке ARM NEON, в файле .s, который выглядит так: AREA myfunction, code, readonly, ARM global fun align 4 fun push {r4, r5, r6, r7, lr} add r7, sp, #12 push {r8, r10, r11} sub r4, sp,...
1900 просмотров

Понимание базовой встроенной сборки NEON
Учитывая этот вопрос: как писать встроенные коды сборки о LOOP в Xcode LLVM? На что отвечает следующий встроенный ассемблерный код: void brighten_neon(unsigned char* src, unsigned char* dst, int numPixels, int intensity) { asm volatile (...
3970 просмотров
schedule 14.11.2023

ARM NEON SIMD версия 2
В чем разница между NEON SIMD и NEON SIMD версии 2, как в Cortex A15?
2983 просмотров
schedule 22.04.2023

Самый быстрый способ проверить 128-битный регистр NEON на значение 0, используя встроенные функции?
Я ищу самый быстрый способ проверить, содержит ли регистр 128 NEON все нули, используя встроенные функции NEON. В настоящее время я использую 3 операции ИЛИ и 2 MOV: uint32x4_t vr = vorrq_u32(vcmp0, vcmp1); uint64x2_t v0 =...
2660 просмотров
schedule 05.11.2023

О компиляции arm neon
Часть моего кода ссылается на библиотеку, которая использует arm_neon.h; когда я пытался скомпилировать с помощью "Симулятора", я получил кучу ошибок. Я использую компилятор LLVM 4.2, что мне делать, чтобы его скомпилировать с помощью arm neon?
1224 просмотров
schedule 17.05.2023

как использовать встроенные функции arm neon vbit?
Я не понимаю, как я различаю vbit, vbsl и vbif с неоновыми встроенными функциями. Мне нужно выполнить операцию vbit, но если я использую инструкцию vbslq из встроенных функций, я не получаю то, что хочу. Например, у меня есть такой исходный...
2004 просмотров
schedule 08.05.2024

Как я могу оптимизировать этот код с помощью ARM NEON?
Я пытаюсь оптимизировать некоторый код, чтобы максимально сократить время выполнения. Это код: int shifter=0; // now iterate through all the pairings UINT32_ALIAS* ptr2=(UINT32_ALIAS*)ptr; const BriskShortPair*...
580 просмотров
schedule 06.04.2024

Включить неон на ARM cortex-a series
Хочу инициализировать на голом железе кору А-15 NEON cp. После выполнения директив ARM Я написал эту последовательность в конце последовательности инициализации моей платформы: MOV r0, #0x00F00000 MRC p15, 0, r0, c1, c1, 2 ORR r0, r0, #0x0C00...
2185 просмотров
schedule 21.01.2023

ARM NEON Оптимизация преобразования изображения
Я применяю преобразование видео NV12, которое перемешивает пиксели видео. На устройстве ARM, таком как Google Nexus 7 2013, производительность довольно плохая при 30 кадрах в секунду для области 1024x512 со следующим кодом C: * Предварительная...
594 просмотров
schedule 12.04.2022

Реверс битов LSB в MSB на ARM
Мне нужно перевернуть изображение YUV с каждым байтом в LSB вместо MSB. Я прочитал Лучший алгоритм для Реверс битов (от MSB- ›LSB к LSB-› MSB) в C , но я хотел бы сделать что-то оптимизированное для ARM. int8 *image; for(i = 0; i < size;...
7770 просмотров
schedule 04.05.2023

Ассемблер, заменяющий константу значением регистра
Я не специалист по сборке, так что это может быть просто. Если у меня есть инструкция, которая ожидает постоянное значение в качестве параметра, например: VQSHRN.U32 d0,q0,#16 Как заменить #16 значением в регистре, например r0 ? Эта...
195 просмотров
schedule 22.09.2022

Сжатие данных в буфере с 16 бит на элемент до 12 бит
Мне интересно, есть ли шанс улучшить производительность такого уплотнения. Идея состоит в том, чтобы насытить значения выше 4095 и поместить каждое значение каждые 12 бит в новый непрерывный буфер. Просто так: Концепция: Конвертировать:...
1650 просмотров
schedule 01.11.2023