avx2

17열

1답변

연속 배열에서 스트리밍 성능을 보려면 AVX -AVX2 명령어 세트를 실험하고있었습니다. 그래서 아래 예를 보았습니다. 기본 메모리 읽기 및 저장은 어디에서합니까? #include <iostream> #include <string.h> #include <immintrin.h> #include <chrono> const uint64_t BENCHMAR

3열

1답변

AVX2 수집 명령어의 대기 시간에 대한 데이터가 있습니까?

AVX2 수집 대기 시간에 대한 데이터가 있습니까? 는 (예를 들어 하나의 캐시 라인을 액세스하는 _mm256_i32gather_ps 명령)

11열

3답변

AVX2는 지시를 수집 -로드 주소 계산

로드 명령 등 VPGATHERDD 등이 모여있는 AVX2의 내장 문서를 보면 : 문서에서 나에게 분명하지 않다 무엇 __m128i _mm_i32gather_epi32 (int const * base, __m128i index, const int scale); 는 계산 된로드 주소가 있는지 여부를을 load_addr = base + index[i] * s

7열

3답변

_mm_alignr_epi8 AVX2에 해당하는 (PALIGNR는)

SSE3에서 의 PALIGNR 명령은 다음과 수행 128 비트. 진부하게도 intrinsic 함수 _mm256_alignr_epi8 (VPALIGNR)은 256 비트 레지스터에서만 _mm_alignr_epi8과 동일한 연산을 수행한다고 믿었습니다. 슬프게도 그러나, 정확히는 그렇지 않습니다. 사실 _mm256_alignr_epi8은 256 비트 레지스터를

6열

3답변

희소 배열 압축

I는 희소 배열 a (거의 제로)가 : unsigned char a[1000000]; 및 I는 SIMD 명령어를 사용 a 0이 아닌 요소 인덱스의 배열 b를 작성하고자 AVX2가있는 인텔 x64 아키텍처 나는 그것을 효율적으로하는 방법에 대한 조언을 찾고있다. 특히, SIMD 레지스터에 연속적으로 배열 된 0이 아닌 요소의 위치를 얻기 위해 SIMD

1열

1답변

자동 벡터화 된 루프를 디버깅 할 수 있습니까?

많은 SIMD 내장 코드가있는 코드베이스에서 작업하고 있습니다. 이제 AVX2가 생겼으므로 비 AVX 가능 프로세서에서 실행되는 SIMD 코드가 있어야합니다.이 코드는 훨씬 더 많은 작업이 필요합니다. 게다가 AVX2 셔플에 대한 128 비트 레인 교차 제한은 상황을 복잡하게 만듭니다. 이러한 이유로 자동 벡터 라이 제이션에 더 많이 의존해야 할 때입니다.