simd

6열

1답변

조립시 겉으로보기에 사소한 문제 : 전체 XMM0 레지스터를 XMM3에 복사하려고합니다. 나는 movdq xmm3, xmm0 을 시도했지만 MOVDQ 두 XMM 레지스터 사이의 값을 이동하는 데 사용할 수 없습니다. 대신 무엇을해야합니까? 그것은 movapd의

1열

1답변

C에서 인라인 어셈블러 코드 - 배열에서 xmm까지 값 복사

두 개의 배열이 있는데 내적을 얻고 싶습니다. vek 및 vec의 값을 xmm0 및 xmm1로 가져 오는 방법은 무엇입니까? 그리고 "printf"에 사용할 수 있도록 xmm1 (??)에 값을 표시하려면 어떻게해야합니까? @Mysticial 바르게 말한다 #include <stdio.h> main(){ float vek[4] = {4.0, 3.0, 2

0열

1답변

ARM 네온 : 뺄셈을위한 VPADAL

VPADAL.U32 명령어를 사용하여 추가 코드 속도를 크게 높입니다. 그러나, 나는 누적으로 빼고 무언가를 필요로 할 것입니다. 소원이 실제로 생각 나나요? 내가 수집 할 수 있었던 것부터 제 2 피연산자를 감소시킨 다음 해당 비트가 아닌 ... VPADAL을 수행 한 다음 1에 대해 비트 테스트를 수행하고 결과 carry에서 1을 뺍니다. 0 또는 -1

15열

2답변

_mm_load_ps 대 _mm_load_pd 대

다음 두 줄의 차이점은 무엇입니까? 즉 __m128 x = _mm_load_ps((float *) ptr); __m128 y = _mm_load_pd((double *)ptr); , 왜 대신 일반적인 __m128 _mm_load(const void *)에, 이렇게 많은 다른 _mm_load_xyz 지침이 있습니까?

0열

1답변

이 경우 SIMD는 어떻게 작동합니까?

SIMD 코드 작성이 가능한 엔진을 사용 중이며 빨리 수행됩니다. 그러나 모든 코드가있는 블록은 하나뿐입니다. 이 코드는 각 엔티티에서 동시에 독립적으로 실행되지만 1 가지만 변경되는 경우 관계없이 계산하는 것이 더 빠릅니까? 이것은 SIMD, 병렬 처리에 대한 아이디어입니까? 예를 들어 :이 경우 void simdFunction() { cent

8열

2답변

SSE로 로그하거나 FPU로 전환 하시겠습니까?

일부 통계 계산을하고 있습니다. 나는 그것들이 빠를 필요가 있기 때문에 SSE를 사용하기 위해 그것들의 대부분을 다시 썼다. 나는 그것에 매우 익숙하기 때문에 여기에 올바른 접근법이 무엇인지 궁금 해서요 : 제 생각에는 SSE에는 log2 또는 ln 기능이 없습니다. 적어도 최신 버전 인 4.1까지는 없습니다 내가 사용하는 하드웨어가 지원합니다. 4 수레

6열

1답변

'long long'(또는 __int64)을 __m64로 변환하는 방법

__int64 값을 __m64 값으로 변환하는 적절한 방법은 무엇입니까?

5열

1답변

ARM NEON : 128 비트 값 비교

Cortex-A9 코어의 NEON 레지스터 (Q0 및 Q3)에 저장된 값을 비교하는 가장 빠른 방법 (최저주기 수)을 찾는 데 관심이 있습니다 (VFP 명령어 허용). (1) VFP 부동 소수점 비교를 사용하여 : 지금까지 나는 다음이 vcmp.f64 d0, d6 vmrs APSR_nzcv, fpscr vcmpeq.f64 d1, d7 vmr

7열

3답변

_mm_alignr_epi8 AVX2에 해당하는 (PALIGNR는)

SSE3에서 의 PALIGNR 명령은 다음과 수행 128 비트. 진부하게도 intrinsic 함수 _mm256_alignr_epi8 (VPALIGNR)은 256 비트 레지스터에서만 _mm_alignr_epi8과 동일한 연산을 수행한다고 믿었습니다. 슬프게도 그러나, 정확히는 그렇지 않습니다. 사실 _mm256_alignr_epi8은 256 비트 레지스터를

4열

2답변

_m128i를 SSE가있는 부호없는 int로 변환하려면 어떻게해야합니까?

나는 이미지를 posterizing하기위한 함수를 만들었다. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m1