simd

1열

1답변

NEON 레지스터로로드 유형 uint32x4_t의 r1, r3 및 r4를 갖는 나는 다음과 같은 코드를 가지고 : 난 그냥 GCC 실제로 vmov 명령에 r4 = r1 변환 여부를 궁금 r3 = veorq_u32(r0,r3); r4 = r1; r1 = vandq_u32(r1,r3); r4 = veorq_u32(r4,r2); r1 = veorq_u3

-1열

1답변

암 네온 지시

나는 약간 부호가 있고, 그것을 바꾸기 위하여 Neon 지시를 사용하고 싶다, 그러나 나는 진짜로 그것을 완료하는 방법을 모른다 ... 누군가는 저를 도울 수 있는가? 이 같은 NEON의 내장 함수 .. 뭔가를 사용하여 void add(int n,float *a,float *b,float t) { int i, size = (n+2) * (n+2);

0열

1답변

시뮬레이터가 생성 한 NEON 출력 (파이프 라인 정보, 스톨, 실행 사이클)이 명확하지 않습니다.

NEON 시뮬레이터의 출력을 이해하는 데 문제가 있습니다. 생성 된 출력은 모호하며 시뮬레이터 출력을 이해하기위한 적절한 문서가 없습니다. 예를 들어 : 1 열의 정보를 명확하게 설명되지 않는다 위의 그림에서 . lc는 무엇을 의미합니까? 아래에 주어진 구문이 표의 데이터 형식과 일치하지 않는 경우가 있습니다. 코드와 데이터는 http://pulsar.we

1열

1답변

_mm_srl_epi32를 잘못 사용하고 있습니까? 이 작은 코드 예제

: __m128i twos = _mm_set_epi32(2,3,1,2); __m128i foo = _mm_set_epi32(128,128,128,128); __m128i shifted = _mm_srl_epi32(foo,twos); 는 "이동"은 각각 I가 두 값 32,16,64 4 개의 32 비트 정수 가득 기대하면서, 제로 가득, 32. 내재적

2열

1답변

강제로 GCC로 자동 벡터화

여기 내 간단한 질문입니다. ICC를 사용하면 #pragma SIMD를 사용하여 컴파일러가 벡터화하지 않도록 선택하는 루프를 벡터화 할 수 있습니다. GCC와 비슷한 것이 있습니까? 또는 향후 릴리스에서이 기능을 추가 할 계획이 있습니까? 상당히 관련이 있습니다. Graphite로 강제 벡터화는 어떻게됩니까? 는 GCC가 SSE/SSE2/등의 지침을 사용하

5열

1답변

SSE 벡터화와 메모리 정렬 간의 관계

왜 SSE/AVX 용으로 정렬 된 메모리가 필요합니까? 내가 자주 얻는 대답 중 하나는 정렬되지 않은 메모리로드보다 훨씬 빠른 메모리로드입니다. 그렇다면 왜 정렬 된 메모리로드가 정렬되지 않은 메모리로드보다 훨씬 빠릅니까?

2열

1답변

예상보다 많은 사이클을 소비하는 Neon VLD?

NEON의 12 개의 쿼드 레지스터를로드하는 간단한 asm 코드가 있으며, 이중 명령어 기능을 사용하기 위해로드 명령어와 함께 pairwise add 명령어를 병행했습니다. 여기 코드를 확인했습니다 하나는 볼 수 있듯이 http://pulsar.webshaker.net/ccc/sample-d3a7fe78 이 코드는 약 13주기를하고있다. 그러나 보드에 코드

4열

1답변

SIMD를 사용하여 두 개의 메모리 블록 XOR을 가속화하려면 어떻게해야합니까?

가능한 한 빨리 메모리 블록 두 개를 XOR하고 싶습니다. 어떻게 SIMD를 사용하여 가속시킬 수 있습니까? 내 원래의 코드는 다음과 같습니다 : void region_xor_w64( unsigned char *r1, /* Region 1 */ unsigned char *r2, /* Region 2 */ int n

5열

2답변

ARM NEON SIMD 버전 2

Cortex A15에서와 같이 NEON SIMD 버전 2와 NEON SIMD 버전 2의 차이점은 무엇입니까?

11열

4답변

두 배열 사이의 동일한 바이트 수를 빠르게 계산하십시오.

SSE 명령어를 사용하여 두 개의 16 바이트 숫자를 비교하기 위해 함수 int compare_16bytes(__m128i lhs, __m128i rhs)을 작성했습니다.이 함수는 비교 수행 후 얼마나 많은 바이트가 동일한지를 반환합니다. 이제 임의의 길이의 두 바이트 배열을 비교하기 위해 위의 함수를 사용하고 싶습니다. 길이가 16 바이트의 배수가 아니기