gpgpu

0열

1답변

을 사용하여 큰 벡터로 배열 된 동일한 길이의 복수 블록 을 줄이는 방법을 찾고 있습니다. 하나의 큰 배열로 배열 된 N 개의 하위 배열 (인접 요소)이 있습니다. 각 하위 배열의 크기는 고정되어 있습니다. 그래서 전체 배열의 크기는 다음과 같습니다. N * K 내가하고있는 일은 커널을 N 번 호출하는 것입니다. 난이 (의사 코드)처럼 그것을 할 것입니다

1열

1답변

GPU에서 순수 C++ 코드를 실행할 수 있습니까?

OpenCL을 잘 모르지만 C/C++ API에서 프로그래머가 OpenCL 코드를 문자열로 제공해야한다는 것을 알고 있습니다. 하지만 최근에 나는 ArrayFire 라이브러리에서 일부 계산을 호출하기 위해 문자열 코드가 필요하지 않음을 발견했습니다. 나는 이것이 어떻게 작동하는지 궁금해했다. (오픈 소스이지만 코드는 다소 혼란 스럽다.) template <t

2열

1답변

커널을 실행하는 동안 데이터를 GPU로 전송

GPU가 paralleled computation 일 때 실제로 빠르며 15-30 (일부는 심지어 50으로보고되는) 시간 동안 CPU를 수행하지만, GPU 메모리는 매우 제한적입니다 CPU 메모리와 GPU 메모리와 CPU 간의 통신 속도가 빠르다. GPU 램에 맞지 않는 데이터가 있지만 우리는 여전히 을 사용하여 계산하는 것이 궁금합니다. 우리가 할 수있는

-1열

1답변

mod 대신 bitwise shift를 사용하는 동안 CUDA의 중요한 시간 차이

저는 CUDA 프로그래밍이 처음이었고 실행 시간의 차이를보기 위해 다른 간단한 커널을 테스트했습니다. 최적화 및 얻을 없애 내가 -g -G와 함께 컴파일 __global__ void mathKernel4(float *c) { int tid = blockIdx.x * blockDim.x + threadIdx.x; float ia, ib;

-2열

1답변

OpenCL은 일정한 공간에서 변수의 늦은 초기화를 허용하지 않습니다.

나는 생성 후에 많은 쓰레드에 의해 읽혀질 행렬을 생성하고자하므로 프로그램 범위로 선언했습니다. 그것은 일정해야하므로 값을 한 번 할당해야합니다. 1) 선언시에만 초기화를 요청하는 이유는 무엇입니까? 2) 어떻게이 문제를 해결할 수 있습니까?

0열

1답변

OpenCL의 자체 참조 포인터

Intel 플랫폼에서 작동하는 OpenCL C++ 코드가 있습니다. 포인터가 커널 끝의 구조 내에서 받아 들여지지 않는다는 생각이 있습니다. 그러나, 그 안에 자체 참조 포인터 옵션을 사용하는 클래스가 있습니다. 이제 구조를 사용하고 호스트 측의 구조에 대해 동일한 내용을 복제 할 수 있지만 장치 측에서 동일한 작업을 수행 할 수는 없습니다. 예를 들어 는

2열

1답변

OpenGL - 컴퓨팅 쉐이더 - iOS - 옵션?

주어진 지점 주위의 지정된 반경에서 일련의 픽셀을 사용하는 사용자 지정 알고리즘을 구현하려고합니다. 1080p 이미지의 모든 단일 픽셀에서이 알고리즘을 실행할 가능성이 있기 때문에 GPU와 병렬 처리하는 것이 좋은 방법이라고 생각했습니다. 문제는 iOS에서 실행해야한다는 것입니다. GPUImage2라는 유용한 iOS 라이브러리를 발견하게되었습니다. GPUI

0열

1답변

계산 쉐이더를 열 때 최대 부울 배열 크기?

gpgpu 쉐이더에서 1000 입방 복셀, 약 10 억개의 부울은 약 1 기가 바이트의 메모리를 사용합니까? 리소스 제한 페이지는 GPU의 2 차원 및 3 차원 배열에 대한 인덱스 제한을 명시하지 않습니다. 그들은 이론적으로 수천 또는 수조에 있습니까?

1열

1답변

Pymc3 샘플링 속도를 높이기 위해 GPU를 사용하는 방법은 무엇입니까?

내가 멀티 샘플 결과를 얻을 수있는 'njobs'매개 변수를 사용했습니다 , 그리고 멀리 내 expection에서 나는 'floatX'을 설정하는 '.theanorc'파일을 변경 한 입니다 샘플링 속도도 이미 느린, 'cnmem 가치 등 내가 명령'엔비디아 SMI '에 의해 GPU 소스를 모니터링 한, 그것은 잘 을 사용되는하지만 CPU보다 느립니다. 정상

1열

1답변

Arrayfire를 사용하여 Python에서 복잡한 배열을보다 빠르게 지수화합니다

arrayfire pow documentation에 따르면 af.pow()은 현재 실제 배열의 힘 (및 근음 ...) 만 지원합니다. 오류가 발생하지 않지만 복소수 입력을 사용하여 af.pow()을 사용하면 다른 함수가 입력으로 사용되는 경우 (예 : af.pow(af.ifft(array), 2)) 큰 메모리 누수가 발생할 수 있음을 발견했습니다. 이 문제