intrinsics

2열

1답변

intrinsics를 사용하여 정수를 비트 시프트하려고합니다. 아래 코드는 그렇게하려고하지만 출력이 예상대로 보이지 않습니다. 아마도 숫자를 잘못로드하거나 잘못된 내장 함수를 사용하고 있습니다. 다음은 출력입니다 : 2 4 8 16 32 64 128 1 2 4 8 16 32 64 128 0 512 1024 2048 4096 8192 16384 32768

1열

1답변

인텔 포트란 복잡한 인수 hyerbolic 기능을 계산하는 공식 문서에 같이

: COSH 인텔 포트란은 쌍곡선 코사인 함수에 입력 복잡한 인수 사용자를 허용하지 않습니다. 그렇다면이를 대체 할 수있는 방법은 무엇입니까?

2열

1답변

내장 코드 최적화 힌트

AVX 본질적인 사용법을 배우고 있으며 다음 코드를 최적화하는 방법에 대해 질문합니다. 내가 본질적인 작업으로 이식하는 방법이지만, 훨씬 쉽고 효율적이라는 잘못된 생각이 든다. float min_value = FLOAT_MAX; float result_p = 0; for loop { float u = .... if(u > 0.0f

0열

2답변

BGR을 RGB 평면 픽셀 형식으로 신속하게 변환

SDK에서 BGR 픽셀 형식 (예 : BGRBGRBGR)이있는 이미지를 얻습니다. 다른 응용 프로그램의 경우이 형식을 RGB 평면 RRRGGGBBB으로 변환해야합니다. 저는 C# .NET 4.5 32 비트를 사용하고 있으며 데이터는 같은 크기의 바이트 배열입니다. 지금 배열 소스를 반복하고 BGR 값을 대상 배열의 적절한 위치에 할당하고 있지만 너무 길어

1열

2답변

반전 A (작은) 순열

나는이 (실제 4D 벡터의 마지막 구성 요소는 무시됩니다)처럼 float3 벡터를 정렬의 OpenCL의 셔플 기능을 사용하고 있습니다 : uint4 mask = (uint4)(0,1,2,3); mask.xyz = res.x < res.y ? (res.x >= res.z ? mask.yxz : mask.yzx) : (res.y >= res.z ? mask.

1열

2답변

다음 SSE2 코드가 데이터를 읽는 방법

2x2 행렬을 곱하기 위해 작성된 SSE2 코드를 발견했습니다. 아무도 나를이 코드가 어떻게 실행되는지 설명 할 수 있습니까? 코드를 살펴볼 때 C (2x2) 행렬 (C [0], C [3])의 두 위치에 값을 추가한다고 생각합니다. "lda는 큰 행렬의 크기이고 A, B 및 C는 2x2입니다. 매트릭스 " static void simd_2x2(int lda

4열

2답변

인접 단어 시퀀스에서 임의의 비트 범위를 추출하는 가장 효율적인 방법은 무엇입니까?

std::vector 또는 uint64_t 요소를 저장하는 다른 시퀀스 컨테이너 (경우에 따라 deque)가 있다고 가정합니다. 이제이 벡터를 연속 비트 인 size() * 64의 시퀀스로 보겠습니다. 주어진 [begin, end) 범위의 비트에 의해 형성된 단어를 찾으려면 end - begin <= 64이 주어 지므로 단어가 맞습니다. 제가 지금 가지고있

4열

2답변

LLVM C API를 사용하여 내장 함수 호출 생성

LLVM C API를 사용하는 일부 코드로 작업하고 있습니다. 내장 함수 (예 : llvm.cos.f64 또는 llvm.sadd.with.overflow.i32)를 사용하려면 어떻게해야합니까? 나는 (올바른 유형의 서명으로) LLVMAddGlobal와 세계를 생성하여 수행하려고 할 때마다, 난 그냥 JIT의 연결 단계에서이 오류 메시지가 : LLVM E

-1열

1답변

Intel 내장 함수 설명에 사용 된 용어를 이해하기위한 참조 또는 설명서는 어디에서 찾을 수 있습니까?

저는 CS에서 석사 학위를 받고 인텔 내장 함수 사용법을 배우기를 원합니다. 그러나 새로운 내장 함수 참조 페이지는 그 자체로 훌륭하지만 특정 이해가 꽉 찼습니다. 이해하는 한 어셈블리 코딩과 관련이 있습니다. 최적화 참조 설명서는 거의 동일한 용어로 구성된 설명을 사용합니다. Unpack and interleave single-precision (32-b

2열

1답변

_mm256_xor_si256()과 _mm256_xor_ps()의 차이점

AVX (2)의 내장 함수 _mm256_xor_si256과 _mm256_xor_ps 사이의 실제 차이를 찾으려고합니다. 그들은 각각 인텔의 지시에 매핑 vpxor의 YMM, YMM, YMM vxorps YMM, YMM, YMM 인텔에 의해 정의된다 : dst[255:0] := (a[255:0] XOR b[255:0]) dst[MAX:256] := 0