에서 (for 루프) DCT를 병렬화하는 방법이내가 루프에 대한 중첩 된 네 내가 CUDA 코드 내 DCT 기능을 원하는이 DCT의 경우 CUDA <br> 에서 루프 네 개의 중첩 된 병렬화하는 방법 CUDA
for(y = 0; y < HEIGHT; y+=BLOCK_H) {
for(x = 0; x < WIDTH; x+= BLOCK_W) {
for(i = 0; i < BLOCK_H; i++) {
for(j = 0; j < BLOCK_W; j++) {
block_in[i][j] = cur_frame[(x+j)+(WIDTH*(y+i))];
}
}
}
}
루프가 아닌 데이터를 생각하십시오. 그리고 튜토리얼을 읽으십시오. – Drop
중첩 루프를 병렬 처리하는 방법에 대해 묻는 질문 [여기] (http://stackoverflow.com/questions/37708101/parallelize-four-and-more-nested-loops-with-cuda). [여기] (http://stackoverflow.com/questions/34529387/kernel-for-processing-a-4d-tensor-in-cuda) 또 하나. –