ptx

1열

1답변

LLVM의 NVPTX 백엔드 (NVIDIA 제공)는 CUDA5/Compute Capability 3.5 장치에있는 새로운 동적 병렬 처리 기능을 지원합니까?

0열

1답변

커널 코드가 PTX 파일이고 호스트 코드도 PTX 파일을 생성 할 때 Cuda에서 텍스처 사용

Windows에서 Cuda [4.2]를 사용하여 텍스처를 읽는 데 문제가 있습니다. 내 프로그램은 모든 커널 모듈을 포함하는 ptx 파일을 읽습니다. 또한 컴파일 프로세스는 호스트 코드의 짧은 루틴에서 추가 ptx 파일을 생성합니다. 여기에 .cuh 파일 및 호스트에만 코드 파일 .CU : /////////////// "textureDefs.cuh" fil

0열

1답변

PTX를 사용하여 C++/CUDA 프로그램에서 부동 소수점 연산을 계산하는 방법

다소 큰 CUDA 응용 프로그램이 있으므로 달성 된 GFLOP를 계산해야합니다. 저는 부동 소수점 연산 수를 계산하는 쉽고 일반적인 방법을 찾고 있습니다. 어셈블리 언어로 사전 정의 된 fpo 목록을 사용하여 생성 된 PTX 코드 (아래 그림 참조)에서 부동 소수점 연산을 계산할 수 있습니까? 코드를 기반으로 계산을 일반화 할 수 있습니까? 예를 들어 ad

1열

1답변

활성 SM을 찾는 방법은 무엇입니까?

자유/활성 SM의 수를 알 수있는 방법이 있습니까? 또는 각 SM의 전압/전력 또는 온도 값을 읽음으로써 작동 여부를 알 수 있어야합니다. (실시간으로 일부 작업이 GPU 장치에서 실행되는 동안). % smid는 각 SM의 ID를 아는 데 도움이되었습니다. 비슷한 것이 도움이 될 것입니다. 감사와 안부, 케쉬

0열

1답변

PTX to OpenClass에서 타겟 변환

OpenCL에서 "PTX (자바에서 바이트 코드로)에서 타겟 변환기로"는 인터프리터 (자바에서 바이트 코드에 대한 것과 같이) 또는 사전 컴파일러입니까?

1열

1답변

CUDA 셔플 기능을 오버로드하면 원래의 기능이 보이지 않습니다.

CUDA에서 64 비트 셔플 기능을 구현하려고합니다. 나는 이런 식으로 할 경우, : __shfl_xor하는 static __inline__ __device__ double __shfl_xor(double var, int laneMask, int width=warpSize) { int hi, lo; asm volatile("mov.b64

5열

1답변

CUDA PTX 코드 및 레지스터 메모리와의 혼동

:) 커널 리소스를 관리하는 동안 PTX를 살펴보기로 결정했지만 이해할 수없는 몇 가지 사항이 있습니다. 여기에 내가 쓴 아주 간단한 커널은 다음과 같습니다 그럼 사용하여 컴파일 된 __global__ void foo(float* out, float* in, uint32_t n) { uint32_t idx = blockIdx.x * blockD

4열

2답변

쿠다 오류 CUDA_ERROR_NO_BINARY_FOR_GPU

로드에 실패한 일부 PTX 코드가 있습니다. 650M에서 OSX를 사용하고 있습니다. 다른 CUDA 예제는 시스템에서 제대로 실행되지만 모듈을로드 할 때마다 항상 오류 209가 발생합니다. CUDA_ERROR_NO_BINARY_FOR_GPU 무엇이 누락 되었습니까? .version 3.1 .target sm_20, texmode_independent .

1열

1답변

cuModuleLoadDataEx가 모든 옵션을 무시합니다.

이 질문은 cuModuleLoadDataEx options과 유사하지만 주제를 다시 가져오고 추가 정보를 제공해 드리고자합니다. cu 드라이버가있는 cuXoduleLoadDataEx를 사용하여 PTX 문자열을로드하면 모든 옵션이 모두 무시되는 것 같습니다. 관심있는 모든 사람이 직접적으로 노력할 수 있도록 전체 작업 예제를 제공합니다. 먼저 작은 PTX 커

4열

1답변

cuda : 장치 기능 인라이닝 및 다른 .cu 파일

두 가지 사실 : CUDA 5.0을 사용하면 나중에 다른 개체 파일에서 CUDA 코드를 컴파일하여 나중에 연결할 수 있습니다. CUDA 아키텍처 2.x는 더 이상 자동으로 자동으로 작동하지 않습니다. 평소와 마찬가지로 C/C++에서 __device__ int foo()을 functions.cu에 구현하고 functions.hu에 헤더를 넣었습니다. 함수 f