simd

    6

    1답변

    조립시 겉으로보기에 사소한 문제 : 전체 XMM0 레지스터를 XMM3에 복사하려고합니다. 나는 movdq xmm3, xmm0 을 시도했지만 MOVDQ 두 XMM 레지스터 사이의 값을 이동하는 데 사용할 수 없습니다. 대신 무엇을해야합니까? 그것은 movapd의

    1

    1답변

    두 개의 배열이 있는데 내적을 얻고 싶습니다. vek 및 vec의 값을 xmm0 및 xmm1로 가져 오는 방법은 무엇입니까? 그리고 "printf"에 사용할 수 있도록 xmm1 (??)에 값을 표시하려면 어떻게해야합니까? @Mysticial 바르게 말한다 #include <stdio.h> main(){ float vek[4] = {4.0, 3.0, 2

    0

    1답변

    VPADAL.U32 명령어를 사용하여 추가 코드 속도를 크게 높입니다. 그러나, 나는 누적으로 빼고 무언가를 필요로 할 것입니다. 소원이 실제로 생각 나나요? 내가 수집 할 수 있었던 것부터 제 2 피연산자를 감소시킨 다음 해당 비트가 아닌 ... VPADAL을 수행 한 다음 1에 대해 비트 테스트를 수행하고 결과 carry에서 1을 뺍니다. 0 또는 -1

    15

    2답변

    다음 두 줄의 차이점은 무엇입니까? 즉 __m128 x = _mm_load_ps((float *) ptr); __m128 y = _mm_load_pd((double *)ptr); , 왜 대신 일반적인 __m128 _mm_load(const void *)에, 이렇게 많은 다른 _mm_load_xyz 지침이 있습니까?

    0

    1답변

    SIMD 코드 작성이 가능한 엔진을 사용 중이며 빨리 수행됩니다. 그러나 모든 코드가있는 블록은 하나뿐입니다. 이 코드는 각 엔티티에서 동시에 독립적으로 실행되지만 1 가지만 변경되는 경우 관계없이 계산하는 것이 더 빠릅니까? 이것은 SIMD, 병렬 처리에 대한 아이디어입니까? 예를 들어 :이 경우 void simdFunction() { cent

    8

    2답변

    일부 통계 계산을하고 있습니다. 나는 그것들이 빠를 필요가 있기 때문에 SSE를 사용하기 위해 그것들의 대부분을 다시 썼다. 나는 그것에 매우 익숙하기 때문에 여기에 올바른 접근법이 무엇인지 궁금 해서요 : 제 생각에는 SSE에는 log2 또는 ln 기능이 없습니다. 적어도 최신 버전 인 4.1까지는 없습니다 내가 사용하는 하드웨어가 지원합니다. 4 수레

    6

    1답변

    __int64 값을 __m64 값으로 변환하는 적절한 방법은 무엇입니까?

    5

    1답변

    Cortex-A9 코어의 NEON 레지스터 (Q0 및 Q3)에 저장된 값을 비교하는 가장 빠른 방법 (최저주기 수)을 ​​찾는 데 관심이 있습니다 (VFP 명령어 허용). (1) VFP 부동 소수점 비교를 사용하여 : 지금까지 나는 다음이 vcmp.f64 d0, d6 vmrs APSR_nzcv, fpscr vcmpeq.f64 d1, d7 vmr

    7

    3답변

    SSE3에서 의 PALIGNR 명령은 다음과 수행 128 비트. 진부하게도 intrinsic 함수 _mm256_alignr_epi8 (VPALIGNR)은 256 비트 레지스터에서만 _mm_alignr_epi8과 동일한 연산을 수행한다고 믿었습니다. 슬프게도 그러나, 정확히는 그렇지 않습니다. 사실 _mm256_alignr_epi8은 256 비트 레지스터를

    4

    2답변

    나는 이미지를 posterizing하기위한 함수를 만들었다. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m1