ptx

    1

    1답변

    LLVM의 NVPTX 백엔드 (NVIDIA 제공)는 CUDA5/Compute Capability 3.5 장치에있는 새로운 동적 병렬 처리 기능을 지원합니까?

    0

    1답변

    Windows에서 Cuda [4.2]를 사용하여 텍스처를 읽는 데 문제가 있습니다. 내 프로그램은 모든 커널 모듈을 포함하는 ptx 파일을 읽습니다. 또한 컴파일 프로세스는 호스트 코드의 짧은 루틴에서 추가 ptx 파일을 생성합니다. 여기에 .cuh 파일 및 호스트에만 코드 파일 .CU : /////////////// "textureDefs.cuh" fil

    0

    1답변

    다소 큰 CUDA 응용 프로그램이 있으므로 달성 된 GFLOP를 계산해야합니다. 저는 부동 소수점 연산 수를 계산하는 쉽고 일반적인 방법을 찾고 있습니다. 어셈블리 언어로 사전 정의 된 fpo 목록을 사용하여 생성 된 PTX 코드 (아래 그림 참조)에서 부동 소수점 연산을 계산할 수 있습니까? 코드를 기반으로 계산을 일반화 할 수 있습니까? 예를 들어 ad

    1

    1답변

    자유/활성 SM의 수를 알 수있는 방법이 있습니까? 또는 각 SM의 전압/전력 또는 온도 값을 읽음으로써 작동 여부를 알 수 있어야합니다. (실시간으로 일부 작업이 GPU 장치에서 실행되는 동안). % smid는 각 SM의 ID를 아는 데 도움이되었습니다. 비슷한 것이 도움이 될 것입니다. 감사와 안부, 케쉬

    0

    1답변

    OpenCL에서 "PTX (자바에서 바이트 코드로)에서 타겟 변환기로"는 인터프리터 (자바에서 바이트 코드에 대한 것과 같이) 또는 사전 컴파일러입니까?

    1

    1답변

    CUDA에서 64 비트 셔플 기능을 구현하려고합니다. 나는 이런 식으로 할 경우, : __shfl_xor하는 static __inline__ __device__ double __shfl_xor(double var, int laneMask, int width=warpSize) { int hi, lo; asm volatile("mov.b64

    5

    1답변

    :) 커널 리소스를 관리하는 동안 PTX를 살펴보기로 결정했지만 이해할 수없는 몇 가지 사항이 있습니다. 여기에 내가 쓴 아주 간단한 커널은 다음과 같습니다 그럼 사용하여 컴파일 된 __global__ void foo(float* out, float* in, uint32_t n) { uint32_t idx = blockIdx.x * blockD

    4

    2답변

    로드에 실패한 일부 PTX 코드가 있습니다. 650M에서 OSX를 사용하고 있습니다. 다른 CUDA 예제는 시스템에서 제대로 실행되지만 모듈을로드 할 때마다 항상 오류 209가 발생합니다. CUDA_ERROR_NO_BINARY_FOR_GPU 무엇이 누락 되었습니까? .version 3.1 .target sm_20, texmode_independent .

    1

    1답변

    이 질문은 cuModuleLoadDataEx options과 유사하지만 주제를 다시 가져오고 추가 정보를 제공해 드리고자합니다. cu 드라이버가있는 cuXoduleLoadDataEx를 사용하여 PTX 문자열을로드하면 모든 옵션이 모두 무시되는 것 같습니다. 관심있는 모든 사람이 직접적으로 노력할 수 있도록 전체 작업 예제를 제공합니다. 먼저 작은 PTX 커

    4

    1답변

    두 가지 사실 : CUDA 5.0을 사용하면 나중에 다른 개체 파일에서 CUDA 코드를 컴파일하여 나중에 연결할 수 있습니다. CUDA 아키텍처 2.x는 더 이상 자동으로 자동으로 작동하지 않습니다. 평소와 마찬가지로 C/C++에서 __device__ int foo()을 functions.cu에 구현하고 functions.hu에 헤더를 넣었습니다. 함수 f