gpu-programming

58열

2답변

저는 GPU 프로그래밍의 초보자입니다. NVIDIA GeForce GT 640 카드가 장착 된 노트북이 있습니다. 나는 2 가지 딜레마에 직면 해있다. 제안은 가장 환영 받는다. 내가 CUDA 갈 경우 은 - 우분투 또는 Windows가 우분투에 설치하는 심각한 문제가 될 수 있지만 분명히 CUDA는 창에 더 적합합니다. CUDA 5를 Ubuntu 11.1

-4열

1답변

Visual Studio에서 GPUMLib를 추가하는 방법은 무엇입니까?

라이브러리를 다운로드하는 C++ 컴퓨터를 사용하려고합니다. GPLMLib : http://sourceforge.net/projects/gpumlib/ 이 프로젝트를 Visual Studio에 추가하려면 어떻게해야합니까?

0열

2답변

특정 GPU에서 지원되는 CUDA의 원자 연산

GPU (nvidia geforce 310m)에서 실행되는 CUDA 프로그램을 작성했습니다. 커널에서는 atomicMin 함수를 사용했습니다. 컴파일하고 실행 한 후에 "커널 실행 실패 : < 8> 장치 기능이 잘못되었습니다"라는 오류가 발생했습니다. 내 카드가 원자 적 조작을 지원하지 않기 때문일 수 있습니다. 맞습니까, 아니면 고려해야 할 다른 것이 있

1열

1답변

OpenCL 병렬화 비용

OpenCL 용 Freescale i.MX6.Q 플랫폼을 열었습니다. 완전히 설명 할 수없는 흥미로운 결과가 있습니다. 내 알고리즘은 4 개의 커널을 실행하여 이루어지며 마지막 하나는 흥미로운 것입니다. 고전적인 이미지 차이입니다. 저는 벡터화 된 것과 벡터화 된 두 가지 버전을 테스트했습니다 (벡터화 없음). 처음에는 병렬화 된 차이점에 대한 결과에 놀랐

2열

1답변

GPU 아키텍처에서 모든 비 활성 워프의 데이터는 어디에 저장됩니까?

NVIDIA의 CUDA 아키텍처에 대한 이해에서, 스레드의 실행은 ~ 32라는 그룹에서 발생합니다. 다중 워프는 한 번에 스케줄되며, 명령어는 어떤 내부 알고리즘에 따라 임의의 워프로부터 발행됩니다. 이제 장치에 공유 메모리가 16KB라고 가정하고 각 스레드가 400 바이트의 공유 메모리를 사용하면 하나의 워프에 400 * 32 = 12.8KB가 필요합니다

0열

1답변

openCL 보조 함수 호출이 작동하지 않습니다.

퍼즐 게임에 대해 무차별 방식 AI를 수행하기 위해 openCL 커널을 작성하고 있지만, 커널 코드 및/또는 보조 함수에 문제가 있습니다. 다음은 커널 코드입니다 (입력 값이 올바르게 전달되었음을 확신합니다). 60은 clEnqueueNDRangeKernel에 의해 설정된 전역 작업 크기입니다. 다음 커널에 대한 입력 은 : 테스트 목적 __global 숯

0열

1답변

CUDA에서 장치 커널을 실행할 수 없습니다.

글로벌 커널 내에서 장치 커널을 호출하려고합니다. 내 글로벌 커널은 행렬 곱셈이며 장치 커널은 제품 매트릭스의 각 열에서 최대 값과 인덱스를 찾습니다. __device__ void MaxFunction(float* Pd, float* max) { int x = (threadIdx.x + blockIdx.x * blockDim.x); in

0열

2답변

복수의 독립 벡터를 두 개로 정렬

아마도 조금 불분명했습니다. 가능한 한 많은 벡터를 빠르게 정렬하고 싶습니다. 예를 들어 200 개의 벡터와 200 개의 벡터가 있습니다.

2열

1답변

3D 그래픽 피킹 -이 시나리오에 가장 적합한 방법은 무엇입니까

사용자가 한 장면에서 3D 개체를 선택할 수있는 프로젝트를 진행하고 있으며 모든 사람들이이 특정 시나리오에 접근하는 가장 좋은 방법이라고 생각하는 것이 궁금합니다. 기본적으로 우리는 적어도 100 개의 객체 (최소 폴리곤이지만 ~ 12-15 개의 삼각형으로 만들어 짐)와 약 1000-2000 개의 객체가있는 장면을 가지고 있습니다. 일부 개체가 다른 개체를

0열

1답변

CUDA : 멀티미디어 데이터 호스트 - 디바이스 전송으로 인한 오버 헤드 완화

호스트의 멀티미디어 데이터 세트에서 피쳐를 추출하고 있으며 모든 이미지에서 피쳐를 추출한 후 일부 처리 작업을 수행하려고합니다. 특히 데이터베이스 인덱싱이나 해시를위한 거리 계산 및 전처리와 같은 작업 집합을 수행하고 GPU에서 가속화 할 수 있습니다. 그러나 대형 지형지 물 배열을 전송하면 비용이 너무 많이 들고 순차적 처리와 비교할 때 성능이 저하됩니다