simd

1열

3답변

SIMD 아키텍처 하에서 raymarching을 가속화 할 수 있습니까?

raymarching은 매우 조건 적입니다. 즉, 각 단계에서 개별 광선의 방향에 따라 달라지는 불투명도, 종결 등을 확인하기 때문에 각 광선이 고유 한 실행 경로를 따르기 때문입니다. 따라서 SIMD가 크게 가속화되지는 않을 것입니다. 오히려 가속을 위해 MIMD가 필요할 것입니다. 의미가 있습니까? 아니면 뭔가 빠졌습니까?

3열

2답변

고속 32 비트 어레이 -> SSE3에서 24 비트 어레이 변환? (RGB32 -> RGB24)

이 질문은 이전에 답변 된 질문입니다. Fast 24-bit array -> 32-bit array conversion? 하나의 대답으로, interjay 친절하게도 RGB24 -> RGB32 변환을위한 SSE3 코드를 게시했지만, 나는 또한 역방향 변환 (RGB32 -> RGB24) . 나는 그것을 쏜 (아래 참조)과 내 코드는 확실히 작동하지만, 그것은

4열

3답변

AMD FMA 4 내장 함수에 대한 참조는 어디에서 찾을 수 있습니까?

불도저 옵테론에서 256 비트 FMA 기능을 사용하기 위해 SSE (128 비트) 호출을 사용하는 코드를 수정하려고합니다. 나는이 호출을위한 내장 함수를 찾는 것 같다. 나는이 발견 :이 포럼에 몇 가지 질문이 내장 함수 (How to find the horizontal maximum in a 256-bit AVX vector 예를) 사용했습니다 http:

10열

2답변

작업 그룹 수에 해당하는 계산 단위 수

몇 가지 설명이 필요합니다. 저는 작은 노트북 용 GPU (310M)를 운영하는 노트북에서 OpenCL을 개발하고 있습니다. 장치를 CL_DEVICE_MAX_COMPUTE_UNITS에 쿼리하면 결과는 2입니다. 커널을 실행하기위한 작업 그룹 수를 계산 단위 수 (Heterogenous Computing with OpenCL, 9 장, 186 페이지)와 일치

6열

1답변

SIMD (AVX) 비교

__m256과 __m256i (AVX 명령어 세트)를 비교하는 데 사용되는 gcc의 내장 함수 이름은 무엇입니까?

4열

1답변

SSE/SSE2/SSE3/SSE4 명령어를 사용하여 여러 개의 숫자에서 비트 마스크를 효율적으로 생성하는 방법

128 비트 변수/레지스터에 16 개의 아스키 문자 (따라서 16 개의 8 비트 숫자)가 있다고 가정합니다. 그 비트가 높을 비트 마스크 (비트 위치 (인덱스)가 16 문자로 표시됨)를 만들고 싶습니다. 예를 들어, 16 자로 구성된 문자열이 "CAD..."이면 비트 마스크 67 번째 비트에서 65 번째 비트, 68 번째 비트 등은 1이어야합니다. 나머지

2열

1답변

SSE ints vs. floats 연습

SSE (AVX)에서 정수 및 부동 소수점을 모두 처리하는 경우 모든 int를 부동 소수점으로 변환하고 소수에서만 사용할 수있는 좋은 방법입니까? 그 후 몇 가지 SIMD 명령어가 필요하기 때문에이 변환이 완전히 유지되어야하는 추가 및 비교 명령어 (<, <=, ==) 만 사용해야합니다.

12열

1답변

XMM 레지스터를 스택에 푸시

XMM 레지스터에서 압축 된 더블 워드 정수를 스택으로 푸시하는 방법이 있습니까? 그런 다음 필요할 때 나중에 다시 팝하십시오. 이상적으로는 범용 레지스터 PUSH 또는 POP와 같은 뭔가를 찾고 있어요 , 나는 인텔 설명서를 확인했지만 나는 중 하나는 명령을 놓친 나 ... 일이없는 아니면 내가해야 할 것이다 값을 일반 레지스터에 풀고 밀어 넣으시겠습니까

2열

1답변

_m128 벡터의 4 개 32 비트 요소 합

내 프로그램을 최적화하는 내장 함수를 사용하고 있습니다. 그러나 이제 결과를 부동 소수점 값과 비교하기 위해 __m128 벡터에있는 네 개의 요소를 합산하려고합니다. 예를 들어,이 128 비트 벡터가 있다고 가정 해 봅시다. {a, b c, d}. + b + c + d와 e를 어떻게 비교할 수 있습니까? e는 float 유형입니까? SSE2 또는 SSE3은

6열

1답변

임의의 배열 길이에 대한 SIMD 배열 추가

벡터 내장 함수를 사용하여 개인용 이미지 처리 라이브러리를 다시 작성하여 SIMD 기능을 사용하는 방법을 배우고 있습니다. 하나 개의 기본 기능은 간단한 "배열 +=,"즉 임의의 배열 길이에 대한 void arrayAdd(unsigned char* A, unsigned char* B, size_t n) { for(size_t i=0; i < n;