을 사용하여 큰 벡터로 배열 된 동일한 길이의 복수 블록 을 줄이는 방법을 찾고 있습니다. 하나의 큰 배열로 배열 된 N 개의 하위 배열 (인접 요소)이 있습니다. 각 하위 배열의 크기는 고정되어 있습니다. 그래서 전체 배열의 크기는 다음과 같습니다. N * K 내가하고있는 일은 커널을 N 번 호출하는 것입니다. 난이 (의사 코드)처럼 그것을 할 것입니다
OpenCL을 잘 모르지만 C/C++ API에서 프로그래머가 OpenCL 코드를 문자열로 제공해야한다는 것을 알고 있습니다. 하지만 최근에 나는 ArrayFire 라이브러리에서 일부 계산을 호출하기 위해 문자열 코드가 필요하지 않음을 발견했습니다. 나는 이것이 어떻게 작동하는지 궁금해했다. (오픈 소스이지만 코드는 다소 혼란 스럽다.) template <t
GPU가 paralleled computation 일 때 실제로 빠르며 15-30 (일부는 심지어 50으로보고되는) 시간 동안 CPU를 수행하지만, GPU 메모리는 매우 제한적입니다 CPU 메모리와 GPU 메모리와 CPU 간의 통신 속도가 빠르다. GPU 램에 맞지 않는 데이터가 있지만 우리는 여전히 을 사용하여 계산하는 것이 궁금합니다. 우리가 할 수있는
저는 CUDA 프로그래밍이 처음이었고 실행 시간의 차이를보기 위해 다른 간단한 커널을 테스트했습니다. 최적화 및 얻을 없애 내가 -g -G와 함께 컴파일 __global__ void mathKernel4(float *c)
{
int tid = blockIdx.x * blockDim.x + threadIdx.x;
float ia, ib;
Intel 플랫폼에서 작동하는 OpenCL C++ 코드가 있습니다. 포인터가 커널 끝의 구조 내에서 받아 들여지지 않는다는 생각이 있습니다. 그러나, 그 안에 자체 참조 포인터 옵션을 사용하는 클래스가 있습니다. 이제 구조를 사용하고 호스트 측의 구조에 대해 동일한 내용을 복제 할 수 있지만 장치 측에서 동일한 작업을 수행 할 수는 없습니다. 예를 들어 는
주어진 지점 주위의 지정된 반경에서 일련의 픽셀을 사용하는 사용자 지정 알고리즘을 구현하려고합니다. 1080p 이미지의 모든 단일 픽셀에서이 알고리즘을 실행할 가능성이 있기 때문에 GPU와 병렬 처리하는 것이 좋은 방법이라고 생각했습니다. 문제는 iOS에서 실행해야한다는 것입니다. GPUImage2라는 유용한 iOS 라이브러리를 발견하게되었습니다. GPUI
내가 멀티 샘플 결과를 얻을 수있는 'njobs'매개 변수를 사용했습니다 , 그리고 멀리 내 expection에서 나는 'floatX'을 설정하는 '.theanorc'파일을 변경 한 입니다 샘플링 속도도 이미 느린, 'cnmem 가치 등 내가 명령'엔비디아 SMI '에 의해 GPU 소스를 모니터링 한, 그것은 잘 을 사용되는하지만 CPU보다 느립니다. 정상
arrayfire pow documentation에 따르면 af.pow()은 현재 실제 배열의 힘 (및 근음 ...) 만 지원합니다. 오류가 발생하지 않지만 복소수 입력을 사용하여 af.pow()을 사용하면 다른 함수가 입력으로 사용되는 경우 (예 : af.pow(af.ifft(array), 2)) 큰 메모리 누수가 발생할 수 있음을 발견했습니다. 이 문제