cuda

    1

    1답변

    내 Cuda 코드에서 격자 및 블록 크기 선택을 자동화하려고합니다. 필자의 경우 필요한 공유 메모리의 양은 thread의 수에 달려있다. 함수의 구문은 다음과 같다. __host__ ​cudaError_t cudaOccupancyMaxPotentialBlockSizeVariableSMem (int* minGridSize, int* blockSize, T f

    1

    1답변

    많은 페이지를 보았지만 불분명하고 지식이 충분하지 않아서 말하는 내용을 따르지 못했습니다. . 나는 실행하려고 : luarocks install https://raw.githubusercontent.com/qassemoquab/stnbhwd/master/stnbhwd-scm-1.rockspec 을 그래서 GPU 가속을 사용하여 일부 이미지를 통해 Dense

    1

    1답변

    나는 우분투 16.04를 설치했고 cuda 8.0을 설치할 수 있도록 cuda 9.0을 제거해야합니다. 내가 좋아하는 몇 가지 명령을 시도 sudo를 제거 apt-get을 --purge CUDA 는 sudo apt-get을 --purge 제거 CUDA * sudo는 --purge CUDA-9-0의 없음을 제거 apt-get을 그 (것)들은 일한다. 누구든지

    0

    1답변

    나는 CUDA 코드 조각으로 이상한 문제를 보았습니다. 그것은 msvc 커뮤니티 2015 및 nvcc Windows 10에서 사용하여 DLL로 컴파일 된. 나는 CUDA 8 사용하고 있습니다. DLL을 호출하는 응용 프로그램은 Qt5 개발되고 있습니다. Qt, CUDA, VTK, HDF5를 사용하면 응용 프로그램이 상당히 크고 복잡합니다. 모두 작동하는 것

    0

    1답변

    CUDA는 정렬되지 않은로드 및 저장을 지원합니까? addr % k! = 0과 같이 주소 addr에서 크기 k 바이트의 (단일) 값을 순진하게 읽을 수 있습니까? unsigned* p = (unsigned*) ((char *) my_aligned_ptr + 1); *p = 0xAABBCCDD; 또는 unsigned* q = (unsigned*) ((ch

    1

    1답변

    호스트 컴퓨터에 물리적 NVIDIA GPU 카드가 없어도 가상 컴퓨터에서 CUDA 프로그램을 실행할 수 있습니까? PCIe 패스 스루는 호스트 컴퓨터에 NVidia 카드가 있고 사용할 수없는 경우에만 실행 가능합니다. GPU가 설치되어 있지 않은 CUDA 프로그램을 실행하는 방법 중 하나는 에뮬레이터/시뮬레이터 (예 : http://gpgpu-sim.org

    0

    1답변

    쿠다 문서 섹션 1.2.3 Incorrect optimization는 말한다 : 컴파일러는 asm() 문이 출력 피연산자를 변경하는 제외하고 부작용이없는 것으로 간주합니다. asm 삭제하거나 PTX의 생성 중에 이동되지 않도록하려면 volatile 키워드, 예를 사용해야합니다 asm volatile ("mov.u32 %0, %%clock;" : "=r"(x

    0

    1답변

    나는 내 CUDA 코드에 커널을 가지고 있는데, 공유 메모리의 일부분에 많은 쓰레드를 쓰고 싶다. (전역 메모리를 사용하는 것보다 훨씬 빠르기 때문이다.) 그 결과를 전역 메모리에 쓴다. (그래서 나는 나중에 커널에서 사용할 수있다). __global__ void calc(float * globalmem) { __shared__ float sha

    0

    1답변

    Ubuntu 17.04에서 Cuda 8을 어떻게 설치합니까? 다음 코드는 NVCC 9 원인 때문에 종료 할 수 없습니다 필요 : #include <thrust/device_vector.h> using thrust::device_vector; struct T : public thrust::binary_function<int, int, int> {

    0

    1답변

    이 게시물에 설명 된대로 8 비트 정수 내장 함수를 사용하는 것을 시도하고있다 : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ 커널 내부 단순히 D = __dp4a(A, B, C); 이 결과를 호출 할 다음 error: identifier "__dp4a" i