sse

    2

    2답변

    32 비트 RGBA 이미지 버퍼가 있습니다. 1920x1080이라고 가정 해 봅시다. 일반적으로 왼쪽에서 오른쪽, 위쪽에서 아래쪽까지 RAW 버퍼입니다. 는 여기에 내가 빨리 정말하고 싶은 내용은 다음과 같습니다이 하나의 소스 버퍼에서 두 개의 새로운 버퍼 ... 는 "FILL"버퍼 ... RGB 값이 원래 버퍼의 일치를 만들 수 있습니다. 알파 값이 불투

    4

    1답변

    (SVML없이) 계수 부문의 사용을 요구하고 그래서 나는이 (죄송이이 overcommented 것)을 할 썼다 : __m128i SSEModDiv(__m128i input, __m128i divisors) { //Error Checking (div by zero) /*__m128i zeros = _mm_set1_epi32(0);

    1

    2답변

    _mm_packus_epi16을 사용할 때 0보다 작은 값은 0이지만 127보다 큰 값은 음수 값이됩니다. 이 링크에 따르면, 어떤 제안을 부호없는 포화 http://msdn.microsoft.com/en-us/library/07ad1wx4%28v=vs.90%29.aspx 그러나 일이 안된다? 코드 : UnsignedSaturate 이후 __m128i re

    7

    1답변

    이 질문은 직접 피연산자가있는 SSE 내장 함수에 대한 gcc (4.6.3 Ubuntu)와 언 롤링 루프의 동작과 관련이 있습니다. 직접 피연산자가있는 내장의 예는 _mm_blend_ps입니다. 상수 일 수있는 4 비트 직접 정수를 기대합니다. 그러나 -O3 옵션을 사용하면 컴파일러가 자동으로 루프를 언 롤링하고 (루프 카운터 값을 컴파일 타임에 결정할 수

    4

    1답변

    O (1) 복잡도 기능이 고정 입력 크기 인 경우 memcmp()과 유사해야하므로 내장 함수를 사용하여 약간 놀았습니다. 컴파일, #include <stdint.h> #include <emmintrin.h> int64_t f (int64_t a[4], int64_t b[4]) { __m128i *x = (void *) a, *y = (void

    9

    1답변

    x86_64의 Linux glibc pthread 기능이 약하게 정렬 된 메모리 액세스를위한 펜스 역할을합니까? (pthread_mutex_lock/unlock은 내가 관심있는 정확한 함수이다). SSE2는 약한 메모리 순서 (특히 movntps와 같은 비 임시 저장소)에 대한 지침을 제공합니다. 이 지침을 사용하고 있고 다른 스레드/코어가 주문을 보도록하

    1

    1답변

    어셈블리 함수 호출 전에 모든 XMM 레지스터를 저장/밀어 넣어야합니까? 64 비트 개발의 릴리스 모드 (AVX2 사용)에서 내 코드의 크래시 문제를 관찰하고 있습니다. 디버그 모드에서 잘 작동합니다. 나는 XMM8 레지스터의 내용을 저장하고 함수 호출이 끝날 때 그것을 복원 한 다음 잘 동작했다. 어떤 아이디어 또는 참조?

    4

    1답변

    길이의 배열을 정렬에 매우 유용 고유 _mm256_permutevar8x32_ps가 차선을 가로 질러 걸어 갔다 수행 할 수있는 AVX2, 8. 이제 나는 단지 AVX (아이비 브릿지)가 같은 일을 할 최소 사이클로. 데이터와 인덱스는 모두 컴파일 타임에 입력되고 알려지지 않습니다. 예를 들어, 배열이 [1,2,3,4,5,6,7,8]이고 인덱스가 [3,0,

    1

    1답변

    에서 SSE를 사용하지 않습니다 사용하고, 그렇지 않은 GCC는 SSE 사용하지 않는 것이 매우 이상하다 그래서 코드 결과 정확히 같은 코드는 플래그없이 gcc myfile.c 내 코드에서 할 많은 배열 연산과 부동 소수점의 행렬을 생성 기본 컴파일과 비교하여 최적화를 수행하십시오. 왜? 이것은 컴파일러의 버그입니까? 편집 내가 플래그 -msse2 또한 컴

    0

    1답변

    SSE2 내장 함수에서 처음으로 다이빙을하고 있는데 어떻게해야할지 모르겠다. 4 개의 int32를 4 개의 다른 int32와 비교하여 얼마나 많은 수가 동일한 지 계산하고 싶습니다. 그래서 처음 4 개의 int32를 읽은 다음 __m128i로 설정하고 두 번째 세트에서 동일한 작업을 수행 한 다음 _mm_cmpeq_epi32를 사용하여 비교합니다. 이렇게하