gpgpu

0열

1답변

C++에서 double이 예상되는 int 인덱스 사용 AMP retrict (direct3d) 코드

인터넷 검색이 도움이되지 않았습니까? AMP를 사용하는 사람이 있습니까? 아래의 코드 조각에서 정수에서 double (double v = idx.x)으로 캐스트하면 "Shader를 만들지 못했습니다"런타임 오류가 발생합니다. 나는 restrict (direct3d)가 GPU가 컴파일 시간 동안 처리 할 수없는 것들을 알려줄 것이라고 생각했습니다. pow()

14열

2답변

대형 OpenCL 커널을 구조화하는 방법은 무엇입니까?

저는 몇 가지 프로젝트에서 OpenCL을 사용해 왔지만 항상 하나의 (때로는 다소 큰) 기능으로 커널을 작성했습니다. 이제는 좀 더 복잡한 프로젝트를 진행하면서 여러 커널에서 기능을 공유하고 싶습니다. 그러나 예제에서는 모두 하나의 파일로 커널을 보여줍니다 (아주 적은 수의 2 차 함수 호출). 복수 파일을 사용할 수 있어야합니다. clCreateProgr

0열

1답변

OpenCL은 버퍼 메모리의 1/4에서 읽기/쓰기 만하고 때때로 충돌합니다.

OpenCL에 문제가 있습니다. 전체 명령 대기열을 실행하지만 입력의 1/4 만 읽습니다. 결과의 1/4 만 씁니다. 얼마나 많은 반복이 있더라도 항상 1/4입니다. 또한 때때로 무작위 내가 소스 코드 (등, ????에서 0x4c4783f6)가 충돌하는 경우, 디버그 기호가 없기 때문에, 어떤 정보를 얻을 해달라고 디버깅을 crashes..with : #i

2열

1답변

GPGPU 프로그래밍은 SIMD 명령어의 실행 만 허용합니까?

GPGPU 프로그래밍은 SIMD 명령어의 실행 만 허용합니까? 그렇다면 일반 CPU에서 실행되도록 설계된 알고리즘을 GPU에서 다시 작성하는 지루한 작업이 필요합니까? 또한 SIMD 아키텍처로 변환 될 수있는 알고리즘으로 패턴이 있습니까?

5열

3답변

CUDA의 블록 간 차단

CUDA에서 블록 간 차단을 구현하려고하지만 심각한 문제가 발생합니다. 왜 작동하지 않는지 알 수 없습니다. 다음 __device__ void wait() { while(*count != 234124) ; } 프로그램으로 나는 대기를 다시 작성하는 경우에도 사실 #include <iostream> #include <cs

2열

3답변

명시 적으로 매개 변수로 전달하지 않고 CPU에서 GPU로 데이터 전달

명시 적으로 매개 변수로 전달하지 않고 CPU에서 GPU로 데이터를 전달할 수 있습니까? 주로 설탕에 대한 이유로 매개 변수로 전달하고 싶지 않습니다. 필자는 건네 줄 필요가있는 약 20 개의 상수 매개 변수를 가지고 있으며, 거의 동일한 매개 변수를 사용하여 두 개의 커널을 연속적으로 호출하기 때문에 또한 통과해야합니다. 나는 __constant__ in

2열

2답변

OpenCL에서 enqueueNDRangeKernel을 반복 호출

enqueueNDRangeKernel을 반복 호출 할 때 다른 OpenCL 함수를 호출해야합니까? 이 방식으로 enqueueNDRangeKernel을 사용하는 방법을 보여주는 튜토리얼을 찾을 수 없어서 불행히도 처리되지 않은 예외 오류가 발생했습니다. 이전에 비슷한 질문을했지만 응답이 내 상황에 적용되지 않는 것 같습니다. 나는 현재 내가 다음 순서로 Op

0열

2답변

CUDA : 오직 하나의 직업으로 시작합니다

나쁜 제목을 드려 죄송합니다. 나는 더 나은 무엇이 나올 수 없었다. 내가 CUDA 프로그램에서 본 모든 예는 병렬화 할 준비가 된 미리 정의 된 데이터를 가지고 있습니다. 일반적인 예는 두 행렬이 이미 채워져있는 두 행렬의 합입니다. 그러나 새로운 작업을 생성하는 프로그램은 어떨까요? CUDA에서 이것을 어떻게 모델링합니까? 결과를 전달하여 어떻게 다른

1열

1답변

순서없는 큐에 논 블로킹 쓰기

플래그가 CL_MEM_USE_HOST_PTR | CL_MEM_READ_WRITE 플래그로 생성되었습니다. 하나의 커널에서 이것을 사용하고 버퍼가 생성 될 때 호스트 메모리 세트로 데이터를 다시 다운로드했습니다 (queue.enqueueReadBuffer(...)). 이 데이터를 CPU에서 수정 했으므로 다른 커널에서이 데이터를 사용하고 싶습니다. 논 블로킹

4열

1답변

OpenCL 원자 추가 연산의 이상한 동작

프로젝트의 경우 OpenCL로 들어가야했습니다. 이제는 원자 연산이 필요하다는 것을 제외하고는 상당히 잘 진행되고 있습니다. 마지막 드라이버가있는 Nvidia GPU에서 OpenCL 코드를 실행하고 있습니다. clGetDeviceInfo()CL_DEVICE_VERSION을 쿼리하면 OpenCL 1.0 CUDA이 반환되므로 OpenCL 1.0 사양을 참조해야