simd

    6

    1답변

    제목은 넌센스로 보일 수 있지만 설명하겠습니다. 나는 다음과 같은 어셈블리 코드가 발생했을 때 다른 일 프로그램을 공부 : movaps xmm3, xmmword ptr [rbp-30h] lea rdx, [rdi+1320h] movaps xmm5, xmm3 movaps xmm6, xmm3 movaps xmm0, xmm3 movss dword ptr

    2

    1답변

    다음 루프는 정수 행렬을 다른 정수 행렬로 변환합니다. 흥미롭게 컴파일 할 때 출력 결과를 출력 행렬에 저장하는 명령어 인 movaps을 생성합니다. 왜 gcc이 이것을할까요? 데이터 : int __attribute__((aligned(16))) t[N][M] , __attribute__((aligned(16))) c_tra[N][M]; 루프

    1

    4답변

    arm_neon.h에 ARM 시스템에 정의 된 uint32x4_t 비트 시프트 연산자에 과부하를 걸려고합니다. uint32x4_t simdShift(uint32x4_t, constant_immediate); shift.h #ifndef SHIFT_H #define SHIFT_H namespace A { namespace B {

    1

    2답변

    내가 16 비트 데이터와 SSE 배열이 고려 된 데이터를 8 비트 등록 같은 첫 번째 8 바이트의 16 개 비트 데이터 : {1,2,3,4,5,6,7,8,0,0,0,0,0,0,0,0}. 이 작업을 수행 할 수있는 SSE 명령어가 있는가?

    1

    1답변

    AVX2 벡터를 상수로 나누고 싶습니다. 나는 this question과 많은 다른 페이지들을 방문했다. 도움이 될만한 무엇인가를 보니 Fixed-point arithmetic와 나는 이해하지 못했다. 그래서 문제는이 부서가 병목입니다. I는 두 가지 시도 : 먼저 플로트와 AVX 명령으로 동작 할 캐스팅 : 첫번째 방법에서는 //outside the bo

    0

    1답변

    정렬 된 메모리와 정렬되지 않은 메모리에서 데이터를 읽는 SSE 명령어 _mm_loadu_si128을 사용하여 정렬되지 않은 두 벡터 vec1 및 vec2의 정수를 읽습니다. 그런 다음 비트 단위 및 연산을 수행하고 정렬되지 않은 메모리에 데이터를 저장하는 _mm_storeu_si128을 사용하여 결과를 저장합니다. 저장소의 대상은 arr1이라는 배열입니다

    1

    1답변

    이 코드에서는 GDC에서 생성 된 x64 코드 출력을 살펴보면 GDC에서 생성 된 x64 코드 출력을 볼 때 좋은 일을하고있는 것처럼 보입니다. 256 비트 YMM '필드'가 맞습니다. Q : D가 자동으로 필드의 정렬 제한을 스택의 정적 구조체 또는 구조체 할당에 전파합니까? 이 경우 은 - 오프셋 GDC에서 40 바이트 - struct vec_struc

    1

    1답변

    AVX 레지스터에 저장되어있는 double 형 벡터가 요소 {a0,a1,a2,a3}입니다. 나는이 사용 AVX를 할 수있는 방법 b = {a0,a1,a0,a0} c = {a1,a2,a2,a1} d = {a2,a3,a3,a2} : 지금, 나는 세 가지 새로운 벡터를 (이 또한 __m256d 변수로 저장해야합니다), 다음과 같은 요소를 포함, B, C

    8

    4답변

    내 상상인가 아니면 PNOT 명령어가 SSE 및 AVX에서 누락 되었습니까? 즉, 벡터의 모든 비트를 뒤집는 명령입니다. 그렇다면 PXOR보다 1을 모두 에뮬레이트하는 더 좋은 방법이 있습니까? 그 접근 방식을 사용하려면 모든 1의 벡터를 설정해야하기 때문에 상당히 짜증납니다.

    3

    2답변

    나는 최근에 내 프로그램은 다음과 같은 간단한 기능에 대부분의 시간을 보내는 것으로 나타났습니다 : void SumOfSquaredDifference( const uint8_t * a, size_t aStride, const uint8_t * b, size_t bStride, size_t width, size_t height, uint64_