ptx

    1

    1답변

    일부 C 코드를 cuda 커널에 이식하려고합니다. 포팅하는 코드는 줄임표를 널리 사용합니다. 아래의 장치 기능에서 줄임표를 사용하려고하면 장치 기능에 줄임표가 허용되지 않는다는 오류가 발생합니다. __device__ int add(int a, ...){} 그러나 쿠다 모두 호스트 장치에서의 printf 함수를 사용하여 지원 common_functions

    2

    1답변

    나는 글로벌 메모리 매트릭스 out에 글로벌 메모리 매트릭스 in의 간단한 임무를 수행하는 다음과 같은 커널이 있습니다 __global__ void simple_copy(float *outdata, const float *indata){ int x = blockIdx.x * TILE_DIM + threadIdx.x; int y = blo

    0

    1답변

    기본적으로 내가 원하는 것은 hiloint2uint64()와 같은 함수가 작동하며, 두 개의 32 비트 정수를 결합하고 결과를 uint64로 재 해석합니다. 나는 이것을 할 수있는 CUDA에서 어떤 함수도 찾을 수 없다. 어쨌든, 그런 종류의 형 변환을 수행 할 수있는 ptx 코드가 있는가?

    1

    1답변

    LLVM의 NVPTX 백엔드로 생성 된 PTX 어셈블리를로드 할 때 확실하지 않은 예외가 발생합니다. (나는 ManagedCuda에서 PTX로드 해요 - http://managedcuda.codeplex.com/를) 여기 ErrorNoBinaryForGPU: This indicates that there is no kernel image available

    2

    1답변

    PTX 학습을 시작하고 싶습니다. 어디에서 시작해야합니까? 이것을하기위한 좋은 책/자료가 있습니까? 이 그것은 다른 어셈블리 언어에 대해 잘 알고 있어야하는 데 도움이 될 것입니다

    0

    1답변

    MOV 명령어는 PTX에서 어떻게 작동하는지 이해가 안 .. mov.type d, a 이 이동하는 얻을. 그런데 이것은 d로 이동할 수 있습니다. a의 주소는 전역, 로컬 또는 공유 상태 공간의 변수입니다. a가 전역 메모리의 변수이고 값이 0x1 인 u64를 가리키고 있다고 가정 해 봅시다. 주소를 얻을 수 있기 때문에 어떻게 0x1을 d에 저장합니까

    26

    2답변

    최근에 NVCC가 어떻게 다른 컴퓨팅 아키텍처를위한 CUDA 장치 코드를 컴파일하는지에 대해 머리를 맞았습니다. NVCC의 -gencode 옵션을 사용할 때 "arch"는 프로그래머 응용 프로그램에 필요한 최소 컴퓨팅 아키텍처이며 NVCC의 JIT 컴파일러가 PTX 코드를 컴파일하는 최소 장치 컴퓨팅 아키텍처입니다. -gencode의 "code"매개 변수는

    0

    2답변

    나는 PTX 코드가 비트 필드 추출 (bfe), 가장 중요한 비 부호 비트 (bfind) 및 인구 카운트 (popc)와 같은 복잡한 의미론을 가진 몇 가지 명령어를 허용한다는 것을 알아 냈습니다. C/C++에서 의도 한 의미로 코드를 작성하는 대신 명시 적으로 사용하는 것이 더 효율적입니까? 예 : "population count"또는 popc은 한 비트의

    0

    1답변

    PTX를 연구 중이므로 .param과 .local 상태 공간의 차이를 이해할 수 없습니다. .local 스레드 볼 그들의 스택 (인 상기 방법에 의해, 실 메모리) .param은 (값이 전달되는 경우) 객체 할당에 사용되는 변수에 저장된 변수, 함수의 변수이며, 반환 값 및 입력 파라미터들은 또한 PTX 설명서에 스택 에 할당하고있다 : 은 PTX에서, 함

    0

    1답변

    .reg을 사용하여 레지스터를 선언 할 때 .. 그들은 어디에 있습니까? 는 말 : I가 전역 (되지 .global 단순히 전역에서 모듈의 .reg 변수를 선언하면 I 함수 레지스터는 각 스레드가 갖는 레지스터 파일에 저장되어있는 장치 .. 그러나 내부 .reg를 사용하면 범위)?