avx

4열

4답변

Java의 Intel i7 Vector 프로세서 (AVX)는 어떻게 사용합니까? 간단한 질문이지만 답변을 찾기가 어려울 것 같습니다.

-1열

1답변

SandyBridge 프로세서 (i7-3820)에서 일련의 응용 프로그램을 벤치마킹합니다. 벤치 마크는 두 가지 버전으로 구성됩니다. 이 두 버전은 첫 번째 버전이 sse/sse2 인 텐트를 사용하고 두 번째 버전이 avx 인트 린직을 사용하는 유일한 차이점과 동일한 코드를 포함합니다. 내가 64 또는 86에 하나의 SSE instrinsics와 버전을 컴

6열

1답변

AVX2, 효율적으로 256 비트 레지스터의 짝수 인덱스에 4 개의 정수를로드하고 홀수 인덱스에 복사하는 방법?

인덱스 I0, I1, I2, I3을 포함하는 정렬 된 정수 배열을 메모리에 가지고 있습니다. 내 목표는 I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1을 포함하는 __m256i 레지스터로 가져 오는 것입니다. 어려운 부분은 I0, I0으로 256 비트 레지스터로 가져옵니다. 0, 1, 0, 1, 0, 1을 포함하는 레지스

1열

3답변

AVX2 지원으로 컴파일 및 실행

매우 큰 라이브러리가 있고 AVX2 지원으로 컴파일하려고합니다 (그러나 내 프로세서는 AVX를 지원합니다). 또한이 라이브러리는 프로세서가 AVX2를 지원하는지 여부를 내부 런타임 검사로 확인합니다. 이런 식으로 뭔가 : #if __AVX2__ if (support_avx2) { // vectorized code } #endif // si

2열

1답변

_mm256_xor_si256()과 _mm256_xor_ps()의 차이점

AVX (2)의 내장 함수 _mm256_xor_si256과 _mm256_xor_ps 사이의 실제 차이를 찾으려고합니다. 그들은 각각 인텔의 지시에 매핑 vpxor의 YMM, YMM, YMM vxorps YMM, YMM, YMM 인텔에 의해 정의된다 : dst[255:0] := (a[255:0] XOR b[255:0]) dst[MAX:256] := 0

1열

1답변

AVX float4/double4 struct

float4/double4 구조체의 AVX-256/512 코드에서 기본 작동 *, +, /, -을 벡터 오버로드하여 벡터에서 빠른 성능 향상을 얻으려는 스칼라 등의 배율을 찾고 있습니다. float4/double4를 사용하여 작성된 코드에서의 연산. OpenCL은 이러한 데이터 유형을 intrinsics로 가지고 있지만 XeonPhi에서 실행되는 C++ 코

0열

1답변

AVX, 단일 정밀도 복소수의 가로 합계?

저는 4 개의 단 정밀도 복소수를 포함하는 256 비트 AVX 레지스터를 실제, 가상, 실제, 가상 등으로 저장했습니다. 현재 전체 256 비트 레지스터를 메모리에 다시 쓰고 거기에서 합산하고 있지만 비효율적 인 것처럼 보입니다. 어떻게 AVX (또는 AVX2) 내장 함수를 사용하여 복소수 수평 합계를 수행 할 수 있습니까? 내장 함수를 사용하여 비교 가능

1열

2답변

동적 할당 된 메모리가 여기에 정상적으로 작동 코드의 SSE

에 정렬되지 : char a[100]; for (int i = 0; i < 100; i++) a[i] = 0; __m128i x = _mm_load_si128((__m128i *) a); 는하지만 동적으로 메모리를 할당 할 경우, VS 2013가 중단됩니다 : 나는 모두 동적 메모리를 사용할 수있는 방법 char *a = new char[1

2열

2답변

AVX/SSE에서 여러 개의 사인을 얻을 수 있습니까?

x64 어셈블러에서 작성한 함수를 실행하는 C++ 프로그램을 작성하려고합니다. 조금 더 빠르게 (그리고 CPU 기능과 함께) 속도를 높이고 싶습니다. 따라서 벡터 작업을 사용하기로했습니다. 문제는 사인을 정수로 곱해야하므로 사인을 먼저 계산해야합니다. SSE/AVX에서이 작업을 수행 할 수 있습니까? 나는 명령어 fsin을 알고 있지만 FPU에있을뿐만 아니

2열

1답변

내장 코드 최적화 힌트

AVX 본질적인 사용법을 배우고 있으며 다음 코드를 최적화하는 방법에 대해 질문합니다. 내가 본질적인 작업으로 이식하는 방법이지만, 훨씬 쉽고 효율적이라는 잘못된 생각이 든다. float min_value = FLOAT_MAX; float result_p = 0; for loop { float u = .... if(u > 0.0f