ptx

    10

    3답변

    새로운 LLVM 백엔드를 사용하여 C/C++ 코드로 주석 된 PTX 어셈블러를 얻는 방법을 아는 사람이 있습니까? CUDA 4.0 이전 버전에서는 쉽게 얻을 수 있지만 CUDA 툴킷을 버전 4.2로 업그레이드하면 NVCC에서 모든 플래그를 거부합니다.

    3

    1답변

    CUDA 드라이버 API로 .cl 커널에서 생성 된 PTX 어셈블리 코드를 실행하려고했습니다. 1)로드 .cl 커널 2) JIT가 3) 컴파일 된 PTX 코드를 확인하고 저장 컴파일 : 내가했다 단계는 이러한 (표준 인 OpenCL 절차)이었다. 지금까지 그렇게 좋았습니다. ptx 어셈블리, % envreg3, % envreg6 등의 일부 특수 레지스터에

    2

    1답변

    공유 메모리를 스레드 블록 내에서 감소시키기 위해 PTX에서 전역 축소 커널을 구현하려고합니다 (모든 CUDA C 예제와 같습니다). CUDA에서 C on은 공유 메모리에 가변 길이 배열을 정의 할 수 있습니다. extern __shared__ float sdata[]; PTX에서 어떻게 해당 제품을 얻을 수 있습니까? 나는 커널이 다른 입력 배열의 길