gpu-programming

    0

    1답변

    하나의 블록에 SM의 사용 가능한 공유 메모리를 모두 할당하려고합니다. 같은 SM에 여러 블록을 할당하지 않으려 고하기 때문에이 작업을 수행하고 있습니다. 내 GPU 카드에는 64KB (공유 + L1) 메모리가 있습니다. 현재 구성에서는 48KB가 공유 메모리에 할당되고 16KB는 L1에 할당됩니다. 사용 가능한 공유 메모리를 모두 사용하기 위해 다음 코드

    1

    1답변

    각 20000 크기의 450 개 벡터간에 상호 상관을 계산하려고합니다. CPU에서이 작업을 수행하는 동안 rows = 20000 및 cols = 450 인 2D 행렬에 데이터를 저장했습니다. 이것은 완벽하게 작동 void computeFF_cpu(float * nSamples, float * nFeatures, float ** data, float ** c

    3

    2답변

    안녕하세요 저는 F # GPU (예 : C Nivida GPU api typeprovider 사용)를 사용하여 막대한 양의 데이터를 처리하는 데있어 가장 비용 효율적이고 효율적인 방법 인 사람의 경험을 묻고 싶습니다. 두 가지 모두 상당히 다른 접근 방법이지만 하나 또는 두 기술에 투자하기 전에 양쪽 모두에서 일한 사람들로부터 조언을 얻기를 바랍니다. GP

    1

    1답변

    nvidia-smi가 하드웨어 레벨 정보를 가져올 수있는 내부 작업은 무엇입니까? 이 도구는 일부 프로세스가 GPU 장치에서 이미 실행 중일 때도 실행되며 프로세스 세부 정보, 이름 및 ID를 가져옵니다. 사용자 수준에서 이러한 도구를 개발할 수 있습니까? NVML은 어떻게 관련되어 있습니까?

    -4

    1답변

    GigaThread 글로벌 스케줄러 코드에 액세스 할 수 있습니까? 제 의도는 주어진 순간에 스케줄러가 얼마나 많은 SM을 사용하고 있는지를 아는 것입니다 (GigaThread 글로벌 스케줄러는 특정 SM을 위해 얼마나 많은 SM과 SM을 결정할 책임이있는 스케줄러 임) 신청). 그래서 스케줄러가 로그를 유지하고 SM의 수 또는 SM의 ID가있는 어플리케이

    1

    1답변

    매개 변수를 커널 함수에 전달하는 데 'setKernelArg'를 사용하는 대신 extern ??을 사용할 수 있습니까 ?? 예를 들어 :이 cl_mem countMobj; //device variable 한다고 가정 나는 커널 함수에이 변수를 전달해야합니다. 'setKernelArg'로 전달하는 대신 주소를 전달하도록 저장소 클래스 지정자 exter

    -1

    1답변

    현재 CPU 코드보다 3-4 배 느린 성능의 CUDA 코드가 있습니다. 대부분의 계산이 GPU에서 수행되도록 모든 관련 CPU/GPU 전송을 제거했으며 최종 결과 만 CPU 메모리로 다시 전송합니다. GPU 메모리 버스가 훨씬 느리므로 GPU 장치 메모리에 액세스하는 속도가 느리다는 점을 염두에두고 좀 더 빨리 읽으려고했습니다. 그리고 제 계산이 큰 배열을

    3

    1답변

    저는 C++에서 간단한 OpenCL 기반 프로그램을 빌드하고 AMD FirePro V4900 카드가있는 Windows 8 시스템에서 테스트했습니다. AMD APP SDK를 사용하고있었습니다. 바이너리를 다른 컴퓨터 (NVIDIA Quadro 4000 카드가있는 Windows 8)에 복사 할 때 "프로 시저 엔트리 포인트 clReleaseDevice를 동적

    4

    1답변

    나는 cudaDecodeD3D9 sample을 연구하여 CUDA의 작동 방식을 배우고 컴파일시 .cu 파일에서 .ptx 파일을 생성합니다. 이 .ptx 파일은 지금까지 이해할 수 있듯이 특정 GPU에 대해 적시에 컴파일 될 중간 표현입니다. 샘플에서는 cudaModuleMgr 클래스를 사용하여 cuModuleLoadDataEx를 통해이 파일을로드합니다.이

    0

    1답변

    다음은 제 코드입니다. 나는 (x, y) 쌍의 배열을 가진다. 각 좌표에 대해 가장 먼 점을 계산하고 싶습니다. #define GPUERRCHK(ans) { gpuAssert((ans), __FILE__, __LINE__); } inline void gpuAssert(cudaError_t code, char *file, int line, bool abor