avx2

    -1

    1답변

    exp_ps()의 구현을 http://gruntthepeon.free.fr/ssemath/sse_mathfun.h 또는 exp256_ps()에서 http://software-lisc.fbk.eu/avx_mathfun/avx_mathfun.h으로 이해하려고합니다. 상수 cephes_exp_C2이 어떻게 결정되는지를 제외하고 계산의 거의 모든 것을 이해합니다.

    11

    1답변

    AVX2에는 좋은 콘텐츠가 많이 있습니다. 예를 들어, 그것은 그들의 전구체보다 훨씬 엄격하게 많은 지침을 가지고 있습니다. VPERMD 가지고 : 당신이 완전히 임의의 다른에 32 비트 값 중 하나를 256 비트 길이의 벡터에서/셔플/교환하다을 방송 할 수 있으며, 런타임 1의 순열 선택으로. 기능적으로, 그것은 기존의 풀고, 방송하고, 바꾸고, 뒤섞고,

    1

    1답변

    여기에 표시된 PRIMATEs 암호의 비트 분할 구현을 작성했습니다 : (120 비트 버전으로 만들었습니다). 필자는 Intel Intrinsics를 C에서만 사용하고 AVX2 명령어 세트를 사용할 수 있도록했습니다. 구현을 약간 슬라이스했기 때문에 속도를 최적화하여 성능을 측정하고 싶었고 바이트 당 사이클을 계산했습니다. 이를 위해 Windows에서 제공

    6

    1답변

    인덱스 I0, I1, I2, I3을 포함하는 정렬 된 정수 배열을 메모리에 가지고 있습니다. 내 목표는 I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1을 포함하는 __m256i 레지스터로 가져 오는 것입니다. 어려운 부분은 I0, I0으로 256 비트 레지스터로 가져옵니다. 0, 1, 0, 1, 0, 1을 포함하는 레지스

    2

    1답변

    AVX (2)의 내장 함수 _mm256_xor_si256과 _mm256_xor_ps 사이의 실제 차이를 찾으려고합니다. 그들은 각각 인텔의 지시에 매핑 vpxor의 YMM, YMM, YMM vxorps YMM, YMM, YMM 인텔에 의해 정의된다 : dst[255:0] := (a[255:0] XOR b[255:0]) dst[MAX:256] := 0

    0

    1답변

    저는 4 개의 단 정밀도 복소수를 포함하는 256 비트 AVX 레지스터를 실제, 가상, 실제, 가상 등으로 저장했습니다. 현재 전체 256 비트 레지스터를 메모리에 다시 쓰고 거기에서 합산하고 있지만 비효율적 인 것처럼 보입니다. 어떻게 AVX (또는 AVX2) 내장 함수를 사용하여 복소수 수평 합계를 수행 할 수 있습니까? 내장 함수를 사용하여 비교 가능

    0

    1답변

    일부 C 코드에서 AVX2 명령어를 사용하고 있습니다.는 VPERMDidx 명령에 기초 a를 뮤팅하여, 2 개의 8 정수 및 벡터 aidx 소요 세번째, dst를 생성한다. 이것은 dst[i] = a[idx[i]] for i in 0..7과 같습니다. 이 소스는 소스를 기반으로 인덱싱되므로 소스 기반이라고합니다. 그러나 계산 된 색인은 대상 기반 양식에 있

    2

    1답변

    4 개의 배정도 값이있는 AVX 레지스터가 있습니다. 이제는 각 요소마다 개별적으로 연산을 수행해야합니다. 내가해야 할 일의 정리는 다음과 같다. Situation: a = [a4 a3 a2 a1] w = [ 0 0 0 w1] x = [ 0 0 0 x1] y = [ 0 0 0 y1] z = [ 0 0 0 z1]

    3

    1답변

    AVX 내장 함수를 사용하여 일부 코드를 최적화하려고합니다. 매우 간단한 테스트 케이스가 컴파일되지만 내 루프가 내가 이해할 수없는 여러 가지 이유 때문에 벡터화되지 않았다고합니다. 이이 명령 줄입니다 #include <math.h> #include <stdlib.h> #include <assert.h> #include <immintrin.h> i

    3

    2답변

    AVX2 명령어에 대한 코드 생성기를 개발 중이며 사양에 따라 AVX2를 실행해야하는 AMD A10 8700 프로세서에서 테스트하려고합니다. VGATHERDPS 법적해야한다, 그래서 vmovdqu yMM0, [ r9+ PmainBase + -256]; LDdqyy;0 lea r9, [ PmainBase + -192];0 vpcmpeqw ymm8,