simd

    1

    1답변

    NEON 레지스터로로드 유형 uint32x4_t의 r1, r3 및 r4를 갖는 나는 다음과 같은 코드를 가지고 : 난 그냥 GCC 실제로 vmov 명령에 r4 = r1 변환 여부를 궁금 r3 = veorq_u32(r0,r3); r4 = r1; r1 = vandq_u32(r1,r3); r4 = veorq_u32(r4,r2); r1 = veorq_u3

    -1

    1답변

    나는 약간 부호가 있고, 그것을 바꾸기 위하여 Neon 지시를 사용하고 싶다, 그러나 나는 진짜로 그것을 완료하는 방법을 모른다 ... 누군가는 저를 도울 수 있는가? 이 같은 NEON의 내장 함수 .. 뭔가를 사용하여 void add(int n,float *a,float *b,float t) { int i, size = (n+2) * (n+2);

    0

    1답변

    NEON 시뮬레이터의 출력을 이해하는 데 문제가 있습니다. 생성 된 출력은 모호하며 시뮬레이터 출력을 이해하기위한 적절한 문서가 없습니다. 예를 들어 : 1 열의 정보를 명확하게 설명되지 않는다 위의 그림에서 . lc는 무엇을 의미합니까? 아래에 주어진 구문이 표의 데이터 형식과 일치하지 않는 경우가 있습니다. 코드와 데이터는 http://pulsar.we

    1

    1답변

    : __m128i twos = _mm_set_epi32(2,3,1,2); __m128i foo = _mm_set_epi32(128,128,128,128); __m128i shifted = _mm_srl_epi32(foo,twos); 는 "이동"은 각각 I가 두 값 32,16,64 4 개의 32 비트 정수 가득 기대하면서, 제로 가득, 32. 내재적

    2

    1답변

    여기 내 간단한 질문입니다. ICC를 사용하면 #pragma SIMD를 사용하여 컴파일러가 벡터화하지 않도록 선택하는 루프를 벡터화 할 수 있습니다. GCC와 비슷한 것이 있습니까? 또는 향후 릴리스에서이 기능을 추가 할 계획이 있습니까? 상당히 관련이 있습니다. Graphite로 강제 벡터화는 어떻게됩니까? 는 GCC가 SSE/SSE2/등의 지침을 사용하

    5

    1답변

    왜 SSE/AVX 용으로 정렬 된 메모리가 필요합니까? 내가 자주 얻는 대답 중 하나는 정렬되지 않은 메모리로드보다 훨씬 빠른 메모리로드입니다. 그렇다면 왜 정렬 된 메모리로드가 정렬되지 않은 메모리로드보다 훨씬 빠릅니까?

    2

    1답변

    NEON의 12 개의 쿼드 레지스터를로드하는 간단한 asm 코드가 있으며, 이중 명령어 기능을 사용하기 위해로드 명령어와 함께 pairwise add 명령어를 병행했습니다. 여기 코드를 확인했습니다 하나는 볼 수 있듯이 http://pulsar.webshaker.net/ccc/sample-d3a7fe78 이 코드는 약 13주기를하고있다. 그러나 보드에 코드

    4

    1답변

    가능한 한 빨리 메모리 블록 두 개를 XOR하고 싶습니다. 어떻게 SIMD를 사용하여 가속시킬 수 있습니까? 내 원래의 코드는 다음과 같습니다 : void region_xor_w64( unsigned char *r1, /* Region 1 */ unsigned char *r2, /* Region 2 */ int n

    5

    2답변

    Cortex A15에서와 같이 NEON SIMD 버전 2와 NEON SIMD 버전 2의 차이점은 무엇입니까?

    11

    4답변

    SSE 명령어를 사용하여 두 개의 16 바이트 숫자를 비교하기 위해 함수 int compare_16bytes(__m128i lhs, __m128i rhs)을 작성했습니다.이 함수는 비교 수행 후 얼마나 많은 바이트가 동일한지를 반환합니다. 이제 임의의 길이의 두 바이트 배열을 비교하기 위해 위의 함수를 사용하고 싶습니다. 길이가 16 바이트의 배수가 아니기