나는 M 단일 채널 이미지를 가지고 있는데, 크기가 각각 NxN이고 장치 메모리 배열에 연속적으로 저장되어있다. (N은 2의 거듭 제곱이 아닙니다.) 배열의 길이는 MxNxN입니다. 이 이미지들 각각에 대해 모든 픽셀의 합을 찾아야합니다. 따라서 출력은 각 이미지에 대해 하나씩 M 값입니다. 모든 픽셀의 이미지 인덱스를 보유하고 각 이미지 (세그먼트)에 대
이 질문은 몇 주 전에 내 옆에 게시 기존 질문과 관련이 사이의 최소 찾기 : TERCOM algorithm - Changing from single thread to multiple threads in CUDA 간단히 커널의 스레드 각각 MAD 값을 계산하고 내가 알고 싶습니다 설명을 최소치와 그 위치. 나는이 __global__ void kernel (
CUDA의 감소와 관련하여 문제가 있습니다. distance은 gridSize*numberOfAngles 요소를 갖는 행렬이고, fftData은 numberOfAngles*NFFT 요소를 갖는 행렬이다. grid_magnitude은 계산 결과를 저장하려는 결과 매트릭스이며 gridSize 개의 요소가 있습니다. 의 특정 값에 해당하는 fftData의 색인을
나의 임무는 배열의 합계를 계산하는 것이다. 내가 할 계획은 OpenCL을 사용하여 태양을 부분적으로 수행하여 커널이 작업 항목 수에 해당하는 크기의 작은 배열을 반환하도록하는 것입니다. 그리고이 다소 작은 배열을 요약하기 위해 OpenMP를 사용합니다. 이제 OpenCL 코드의 호스트 부분에서 OpenMP를 사용할 수 있는지 궁금합니다. 그렇다면 Open
sse 내장 함수를 사용하여 float 벡터의 합계 요소 (축소)를 얻으려면 어떻게해야합니까? 간단한 시리얼 코드 : 일반적으로 void(float *input, float &result, unsigned int NumElems)
{
result = 0;
for(auto i=0; i<NumElems; ++i)
result +=
최근 CUDA (예 : http://www.cuvilib.com/Reduction.pdf, 16 페이지에서 찾을 수있는 알고리즘)를 사용하여 감소 알고리즘을 테스트했습니다. 그러나 그것의 끝에, 나는 원자력을 사용하지 않는 문제에 부딪쳤다. 그래서 기본적으로 각 블록의 합을 공유 배열로 저장합니다. 그런 다음 전역 배열 x (tdx는 threadIndex.
질문이 있습니다. 우리가 두 가지 결정에 문제가 있다면, L1과 L2라고 말하십시오. L1과 다항식 시간에 L2로 줄일 수 있다면 L2는 다항식 시간으로 L1로 환원 될 수 없다는 것이 사실입니까? L1은 P에 있거나 경우에만 사실이다이 L1 can be reduced to L2 in polynomial time => NOT (L2 can be reduce
신호 행렬로 작업하고 있으며 목표는 행의 모든 요소의 합을 계산하는 것입니다. 행렬은 다음 구조체로 표현된다 : typedef struct matrix {
float *data;
int rows;
int cols;
int leading_dim;
} matrix;
I 행렬을 언급해야 올바른 지표를 입수 화학식 co