장치에 생성 된 데이터 (A [i, j, k])의 큰 덩어리가 있지만 A [i, :, :]의 하나의 '슬라이스'만 필요하며 일반 CUDA에서는 일부 포인터 연산으로 쉽게 수행 할 수 있습니다.PyCUDA 메모리 주소 지정 : 메모리 오프셋?
pycuda 내에서 동일한 작업을 수행 할 수 있습니까? 즉
cuda.memcpy_dtoh(h_iA,d_A+(i*stride))
는 분명히 이것은합니다 (이명 령 모양에서 유추하지 않는 한) 어떤 크기 정보를 theres 이후 완전히 잘못이지만, 희망 당신은 아이디어를 얻을?
어쨌든 옵션 1로 갔지만 다른 사람에게 우리가 생각하지 못했던 마법의 해결책이 있는지보기 위해 몇 시간 동안 질문을 열어 두었습니다. – Bolster
예, 1 주일 이상 지났습니다. 모두가 그렇게 매일 읽을 수 있습니다 :) – fabrizioM