avx2

    17

    1답변

    연속 배열에서 스트리밍 성능을 보려면 AVX -AVX2 명령어 세트를 실험하고있었습니다. 그래서 아래 예를 보았습니다. 기본 메모리 읽기 및 저장은 어디에서합니까? #include <iostream> #include <string.h> #include <immintrin.h> #include <chrono> const uint64_t BENCHMAR

    3

    1답변

    AVX2 수집 대기 시간에 대한 데이터가 있습니까? 는 (예를 들어 하나의 캐시 라인을 액세스하는 _mm256_i32gather_ps 명령)

    11

    3답변

    로드 명령 등 VPGATHERDD 등이 모여있는 AVX2의 내장 문서를 보면 : 문서에서 나에게 분명하지 않다 무엇 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); 는 계산 된로드 주소가 있는지 여부를을 load_addr = base + index[i] * s

    7

    3답변

    SSE3에서 의 PALIGNR 명령은 다음과 수행 128 비트. 진부하게도 intrinsic 함수 _mm256_alignr_epi8 (VPALIGNR)은 256 비트 레지스터에서만 _mm_alignr_epi8과 동일한 연산을 수행한다고 믿었습니다. 슬프게도 그러나, 정확히는 그렇지 않습니다. 사실 _mm256_alignr_epi8은 256 비트 레지스터를

    6

    3답변

    I는 희소 배열 a (거의 제로)가 : unsigned char a[1000000]; 및 I는 SIMD 명령어를 사용 a 0이 아닌 요소 인덱스의 배열 b를 작성하고자 AVX2가있는 인텔 x64 아키텍처 나는 그것을 효율적으로하는 방법에 대한 조언을 찾고있다. 특히, SIMD 레지스터에 연속적으로 배열 된 0이 아닌 요소의 위치를 ​​얻기 위해 SIMD

    1

    1답변

    많은 SIMD 내장 코드가있는 코드베이스에서 작업하고 있습니다. 이제 AVX2가 생겼으므로 비 AVX 가능 프로세서에서 실행되는 SIMD 코드가 있어야합니다.이 코드는 훨씬 더 많은 작업이 필요합니다. 게다가 AVX2 셔플에 대한 128 비트 레인 교차 제한은 상황을 복잡하게 만듭니다. 이러한 이유로 자동 벡터 라이 제이션에 더 많이 의존해야 할 때입니다.