gpgpu

4열

2답변

GPGPU 프로그래밍 in .Net - Microsoft Accelerator VS OpenCL.net [VS Others]

2D 컨볼 루션과 같은 이미지 처리가 많은 프로그램을 .NET에서 개발 중입니다. 그들 GPGPU (병렬 처리)와 함께 그래서, 나는 몇 가지 선택 : Microsoft Accelerator, OpenCL.Net, ... 어느 것이 나를 위해 더 좋습니까? 어떤 것들은 나를 위해 중요 : 속도, 호환성 (GPU가 지원하지 않는 경우, 발생하는 예를 들면?)

5열

1답변

코드 최적화시 NVCC는 얼마나 좋은가?

NVCC는 장치 코드를 얼마나 잘 최적화합니까? 상수 폴딩 (form folding)과 일반적인 서브 표현식 제거 (subexpression elimination)와 같은 최적화를 수행합니까? 이것에 float a = 1/sqrtf(2 * M_PI); float b = c/sqrtf(2 * M_PI); : 예는, 다음을 줄일 수 float a = 1/

3열

4답변

opencl을 호출하는 데 시간이 얼마나 걸립니까?

저는 현재 작은 행렬과 벡터에 선형 대수를 할당하는 알고리즘을 구현하고 있습니다. 코드가 빠르지 만, CPU 대신 gpgpu에서 구현하는 것이 타당한 지 궁금합니다. 전처리 단계로 gpu 메모리에 대부분의 행렬과 벡터를 저장할 수 있으며, 프로파일에 곱셈 알고리즘, 알고리즘이 있습니다. 알고리즘은 gpu에서 편한 방법입니다. 하지만 지금은 내 질문에 대한

4열

2답변

NVIDIA의 L2 캐시 Fermi

NVIDIA Fermi 아키텍처 (cuda의 doc 폴더에있는 Compute_profiler.txt 파일)의 성능 카운터 이름을 살펴보면 L2 캐시 실패의 경우 2 개의 성능 카운터 인 l2_subp0_read_sector_misses 및 l2_subp1_read_sector_misses. 그들은 L2의 두 조각을위한 것이라고 말했다. 두 개의 L2 조각이

1열

1답변

NVidia CUDA : L2 및 여러 커널 호출 캐시

L2 캐시가 여러 커널 호출 사이에서 해제되는지 궁금합니다. 예를 들어 데이터에 대한 사전 처리 작업을 수행하는 커널과이를 사용하는 두 번째 커널이 있습니다. 데이터 크기가 768KB 미만인 경우 더 우수한 성능을 얻을 수 있습니까? 나는 NVidia 녀석들이 그렇지 않으면 구현할 이유가 없다고 생각하지만 어쩌면 내가 틀렸을 것입니다. 아무도 그 경험이 있

6열

2답변

opencl 명령 대기열은 어떻게 작동하며 무엇을 요청할 수 있습니까?

동일한 작업을 여러 번 미리 수행하는 알고리즘을 연구 중입니다. 연산이 일부 선형 대수 (BLAS)로 구성되어 있기 때문에 GPAS를 사용해 보겠습니다. 커널을 작성하고 명령 대기열에서 커널을 시작하기 시작했습니다. 각 통화가 끝날 때까지 기다리지 않으려 고하기 때문에 이벤트를 통해 통화를 데이지 체인으로 연결하고 대기열에 넣기 시작합니다. call ker

3열

3답변

과학 시뮬레이션에서 GPU는 어떻게 그리고 어디에서 사용됩니까?

GPUs은 과학 시뮬레이션 (천체 물리학/우주론)에서 어떻게 그리고 어디에서 사용됩니까?

0열

1답변

오류 : asm 피연산자 유형 size (1)이 제약 조건 'r'에 의해 암시 된 유형/크기와 일치하지 않습니다. Duane Merrill의 GPU 기수 정렬에서

win-XP + VS2005에서 Merrill의 기수 정렬을 컴파일하려고 할 때 오류가 있습니다. 오류 : asm 피연산자 유형 size (1)이 (가) 제약 조건 'r'에 의해 암시 된 유형/크기와 일치하지 않습니다. 이 나타납니다 는 다음 코드에서 발생 #define B40C_DEFINE_GLOBAL_LOAD(base_type, dest_type, sh

1열

2답변

일부 조건이 충족 될 때까지 블록을 차단할 수있는 방법이 있습니까?

하나의 변수가 특정 값으로 설정 될 때까지 일부 블록을 차단하고 싶습니다. 그래서 간단한 do-while 루프가 작동하는지 테스트하기 위해이 코드를 작성합니다. __device__ int tag = 0; __global__ void kernel() { if (threadIdx.x == 0) { volatile int v; d

0열

2답변

cuda nbody 시뮬레이션 - 공유 메모리 문제

Nvidia GPU 컴퓨팅 SDK의 예제를 기반으로 nbody 시뮬레이션을 위해 두 개의 커널을 만들었습니다. 공유 메모리를 사용하지 않는 첫 번째 커널은 공유 메모리를 사용하는 두 번째 커널보다 ~ 15 % 빠릅니다. 공유 메모리가있는 커널이 왜 느린가요? 커널 매개 변수 : 8192 본문, 블록 당 스레드 = 128, 그리드 당 블록 = 64. 장치 :