gpgpu

6열

1답변

책 Programming Massively Parallel Processors에서 gflops의 수는 다른 행렬 곱셈 커널의 효율성을 비교하는 데 사용됩니다. 내 컴퓨터에서이 커널을 어떻게 계산할 수 있습니까? NVIDIA 포럼의 어떤 곳에서이 '알고리즘'을 찾았지만 유효한지 또는 시간 2가 어디서 비롯되는지 모릅니다. NumOps = 2 * pow(Mat

6열

2답변

OpenGL Es를 gpgpu 구현에 사용할 수있는 방법

gpgpu 이미지 처리 코드 구현을 위해 Opengl Es를 사용하고 싶습니다. 이 목적으로 Opengl Es를 사용할 수 있는지 알고 싶습니다. Opengl Es의 어떤 버전이이 목적에 더 적합 할 수 있다면 (Opengl Es 1.1 또는 2.0).

4열

1답변

GPU 하드웨어에 구현 된 특수 수학 함수

NVIDIA GPU에서 3D 일반 그리드의 선형 보간 계산을위한 특수 하드웨어 기능이 정점 유닛에 있다는 것을 오늘 배웠습니다. GPGPU를 사용하여 코드를 가속화 할 때 사람들이 실제로 사용하는 경우 이러한 종류의 것이 더 중요할까요?

4열

1답변

Windows 7 시스템에서 이질적인 다중 GPU를 독립적으로 작업하고 사용하는 방법이 있습니까?

내 데스크탑에 2 개의 혼합 칩셋/세대 AMD GPUS를 장착 할 수 있습니까? 6950 및 4870을 사용하고 opencl/gpgpu 용도로만 하나의 GPU (4870) 전용, 비디오 출력 장치 제거 또는 OS 고려 사항 표시, 4870은 기본적으로 깊은 잠에 머물러 있거나 그것이 나타날 때까지 꺼내거나 꺼내는 것처럼 보입니다. 스트림 프로세서가 필요합니

0열

1답변

밖에있는 GPU는 몇 개입니까?

Nvidia와 AMD가 최신 GPU를 얼마나 많이 판매했는지 확인할 수 없었습니다. 현대적으로 CUDA, OpenCL 또는 다른 기술로 프로그래밍 할 수있는 일반적인 목적을 의미합니다. 아무도 몰라? 감사합니다.

1열

1답변

GPU 프로파일 링 카운터 결과에 관한 질문

저는 GPU (GTX580) 프로파일 링 카운터로 놀아 왔습니다. 누군가가 프로파일 링 카운터 결과의 불확실성을 초래하는 원인을 알 수 있습니까? 나는 다른 버퍼에 버퍼를 복사하는 아주 간단한 커널을 가지고있다. 그리고이 커널에서 실행되는 명령을 프로파일 링합니다. 작업 항목 수 및 작업 그룹 크기의 구성 중 일부는 결과가 다른 실행에서 안정적입니다. 그러

2열

1답변

잘못된 계산을 생성하는 OpenCL

일부 계산을 위해 openCL을 사용하려고했지만 결과가 잘못되었습니다. I 입력 세 float3 같이의 :이 커널에 [300000,0,0] [300000,300000,0] [300000,300000,300000] : __kernel void gravitate(__global const float3 *position,__global const floa

2열

2답변

이상한 결과

내 커널은이 같은 PTX 버전이 있습니다 .version 2.2 .target sm_20, texmode_independent .entry histogram( .param .u32 .ptr .global .align 4 histogram_param_0, .param .u32 .ptr .global .align 4 histogram_

1열

1답변

Cuda의 CImg 라이브러리

나는 CUDA C의 VS2008, Win 7 코드를 작업 중입니다. float 행렬을 이미지로 표시하려면 ..i 파일을 .bin 파일로 저장하고 별도의 파일로로드하십시오. .cpp 파일 성공적으로는 CIMG 라이브러리를 사용하여 이미지를 ... 그러나 내가 그것을 컴파일에 아래 그림과 같이 이상한 오류를 제공 파일을 .CU하기 위해 유사한 코드를 추가 할

1열

2답변

정렬에 대한 빠른 해킹 : 나는이 일을 제대로하고 있습니까?

다른 정렬 알고리즘을 조사 중이었고 실제로 정렬하지 않고 정렬하는 아이디어를 얻었을 때 GPU로 이식하는 방법을 생각하려고했습니다. 이건 내 커널 모습입니다 : __global__ void noSort(int *inarr, char *outarr, int size) { int idx = threadIdx.x + blockIdx.x * blockD