avx

    3

    3답변

    D에서 즉시 할 수 있습니까? 내가 도울 수 있다면 나는 LDC2 컴파일러를 사용하고있다. AVX 내장 함수 사용에 관심이 있습니다.

    2

    1답변

    "Apple LLVM Compiler 4.1"(Clang)과 함께 Xcode 4.5.2를 사용합니다. AVX가 활성화 된 (아직 _mm256 * 기능이없고 __m256 변수가 없음) SSE 내장 함수에 크게 의존하는 코드를 컴파일하려고 시도했지만 SSE 4.2 만 활성화 된 경우 느린 코드가 나타납니다. 이에 대한 합리적인 설명이 있습니까?

    1

    1답변

    다음과 같은 두 배의 메모리를 순차적으로 사용하면 다음 작업을 수행 할 수 있습니다. A-> a1 | b1 | a2 | 내가 생각할 수있는 B2 __m256d r1,im1; /*Perform operation here*/ r1-> |a2|a2|a1|a1| im1-> |b2|b2|b1|b1| 한 가지 방법은 다음과 같습니다 t1 = _mm256_l

    25

    4답변

    인텔 SSE 및 AVX 지침을 배우기위한 좋은 C/C++ 자습서 또는 예제가 있습니까? 나는 마이크로 소프트 MSDN과 인텔 사이트에 몇 가지 발견하지만 Apple's developer site에 좋은 물건, 예를있다

    7

    3답변

    내 3D 계산을위한 최적화를 개발하고있어 지금이 : 표준 C를 사용하여 "plain"버전 프리 프로세서 #define USE_AVX 을 사용 때문에 컴파일 언어 라이브러리, 처리기 #define USE_SSE를 사용하여 컴파일 SSE 최적화 된 버전, AVX 최적화 된 버전 다른 실행 파일을 컴파일하지 않고도 3 가지 버전간에 전환 할 수 있습니까 (예 :

    3

    1답변

    내가 등록 제온 파이와 같이 512 와이드 SIMD 벡터에서 다음 복식가있는 경우 : m0_d = |a4|a4|a3|a3|a2|a2|a1|a1| : m0 = |b4|a4|b3|a3|b2|a2|b1|a1| 이 안으로 들어가 할 수 있습니다 단일 명령 사용? 또한 double 형에 대한 비트 내장 함수가 없기 때문에 위의 결과를 얻으려면 여전히 유효한

    4

    1답변

    OpenMP 및 SIMD를 사용하여 배열 축소를 수행하려고합니다. 나는 다음과 링크에서이 아이디어를 가지고 inline float sum_scalar_openmp2(const float a[], const size_t N) { float sum = 0.0f; #pragma omp parallel { float sum_p

    0

    1답변

    는 (심지어 -mfpmath=both 또는)을 -mfpmath=sse 명령 줄 옵션을 는 MinGW에 -march=corei7-avx -mtune=corei7-avx 또는 -march=corei7 -mtune=corei7 -mavx 명령 줄 옵션을합니까 수학 루틴에 대한 AVX 명령의 사용 가능? 참고 --with-fpmath=avx에서 here까지 작동하

    3

    2답변

    , 난 X의 세번째 요소 H의 모든 요소를 ​​설정하는 고유 SSE를 __m128 X; __m128 H = _mm_shuffle_ps(X,X,_MM_SHUFFLE(3,3,3,3)); 사용할 수 float (__m128)을 패킹 (이는 가장 빠른 방법?) 자, 같은 포장을하고 싶습니다 double (__m256d). 나는 순진하게 코드화했습니다. __m

    0

    1답변

    AVX 사용 설명서를보고 있었지만 32 비트 정수 값에 대한로드, 저장 및 치환 연산이 있지만 최소값 또는 최대 값을 결정하는 것과 같은 다른 연산이나 셔플 연산은 수레와 복식에만 제공됩니다. 32 비트 정수에 대해 이러한 연산을 사용하려면 부동 소수점 형으로 변환 한 다음 유형 변환하거나 누락 된 다른 명령어가 필요합니까? 또한 셔플 마스크는 32 비트