dynamic-parallelism

    0

    1답변

    나는 다음과 같은 커널 패션을 나누기 동적 병렬 처리를 사용하고 정복 정수 배열의 최대 값을 가져옵니다 하나를 동적 병렬 테스트입니다 as : getMax<<<1,1>>>(d_arr, 0, N, d_max), d_arr 배열, N 해당 크기 및 d_max 최대 값. 때로는 올바른 출력을 얻을 수 있지만,이 내가 잘못된 사람에서 볼하는 경향이 속성이 있습니다

    0

    1답변

    CUDA에 동적 병렬를 사용하여, 당신은 머지 소트 같은 재귀 알고리즘을 구현할 수 있습니다. 구현 한 결과 내 프로그램이 보다 큰 입력에 대해서는 작동하지 않습니다.. 내 질문에 얼마나 많은 깊이가 재귀 트리에 구현을 갈 수 있습니까? 제한이 있습니까? (내 프로그램은 작은 입력에 대해 잘입니다.)

    2

    1답변

    동적 병렬 처리를 지원해야하므로 cc 5.2로 새로운 GPU GeForce GTX 980으로 전환했습니다. 그러나 프로그래밍 가이드의 간단한 코드조차도 컴파일 할 수 없었습니다. 나는 여기에 그것을 제공하지 않을 것입니다 (필요하지 않습니다, 단지 글로벌 커널이 또 다른 글로벌 커널을 호출합니다). 1) VS2013을 코딩에 사용합니다. property p

    3

    1답변

    GPU의 기본 커널에서 보조 커널을 실행하면 약간의 오버 헤드가 발생합니다. 이 오버 헤드의 양에 영향을 미치는 요인은 무엇입니까? 예 : 커널 코드의 크기, 커널이 시작되는 곳의 SM 점유율, 커널 인수의 크기 등. 이 질문을 위해 다음을 포함하여 "오버 헤드"를 정의하십시오. 시간 간격 : 시작 일 : SM은 발사 명령을 끝을 본다 :는 SM이 하위 커

    1

    1답변

    CUDA 재귀 (cm> 35) 기술을 사용하여 정말 간단한 병합 정렬을 구현하려고하지만 부모 스레드에게 말할 방법을 찾을 수 없습니다. cudaEventSynchronize() 및 cudaStreamSynchronize()는 호스트이므로 자식을 동시에 실행 한 다음 자식 계산을 기다립니다. __syncthread()는 원하는 결과를 저장하지 않습니다. 부모

    0

    1답변

    나는이 배포 키트에 깊은 인상을 받았습니다. 새 메인 보드 등이 필요할 수도있는 새로운 CUDA 카드를 구매하는 대신,이 카드는 모두 하나의 카드로 제공됩니다. 스펙에는 CUDA 컴퓨팅 기능이 있습니다. 3.2. AFAIK 동적 병렬 처리 및 그 이상은 cm_35, cuda 컴퓨팅 기능 3.5와 함께 제공됩니다. 이 카드는 Kepler 아키텍처의 동적 평행

    0

    1답변

    CUDA와 동적 병렬 처리를 사용하려고하지만 컴파일 단계를 수행 할 수 없습니다. Compute Capability 3.5와 CUDA 버전 7.5가있는 GPU를 작업하고 있습니다. nvcc -arch=compute_35 -rdc=true cudaDynamic.cu -o cudaDynamic.out -lcudadevrt : 내가, 내가, 다른 오류 메시지

    0

    1답변

    동적 병렬 처리를 이해하기위한 간단한 코드를 작성했습니다. 프린트 된 값에서, 자식 커널이 올바르게 실행되었다는 것을 알았지 만, 부모 커널로 돌아 왔을 때, 자식 커널에서 올바르게 업데이트되는 임시 배열 대신 잘못된 값이 사용되는 것을 볼 수 있습니다. 'd_cin 배열'을 업데이트하려고하면 잘못된 값이 표시됩니다.는 nvcc -m64 -dc -genco

    -1

    1답변

    동적 병렬 처리를 테스트하기 위해 간단한 코드를 작성하고 GTX1080에서 다음 명령을 사용하여 컴파일했습니다. nvcc -arch=sm_35 -dc dynamic_test.cu -o dynamic_test.o nvcc -arch=sm_35 dynamic_test.o -lcudadevrt -o dynamic_test 그러나 예상대로 출력되지 않습니다.

    0

    1답변

    커널 내부에 여러 개의 벡터 내적을 수행하는 코드를 작성하려고합니다. 나는 cublasSdot 함수를 사용하여 cublas 벡터 점 제품을 수행하는 라이브러리에서 사용하고 있습니다. 내가 cublas_v2 라이브러리를 포함하고 코드를 컴파일하려면 다음 명령을 사용했습니다 using namespace std; __global__ void ker(float