gpu-atomics

1열

1답변

섹션을 비판적으로 실행해야하는 코드가 있습니다. 그 코드 조각에 대한 자물쇠를 사용하여 (블록 당 하나의 스레드로 설정된) 커널의 각 스레드가 그 코드를 원자 적으로 실행하도록합니다. 스레드의 순서는 나를 괴롭히는 것입니다. 스레드를 인덱스 (또는 실제로 blockIdx 순서대로), 0에서 10 (임의로 예를 들어 5, 8, 3 등의 순서로) 순으로 실행해

8열

1답변

CUDA의 원자력 작전? 포함 할 헤더 파일은 무엇입니까?

CUDA에서 원자 연산을 사용하려면 CUDA 헤더 파일을 포함해야합니까? CUDA 프로그래밍 가이드는 이것에 대한 단호한 것처럼 보입니다. 아래 주어진 glmax.cu 코드는 다음과 같은 컴파일 오류를 발생시킵니다. gaurish108 MyPractice: nvcc glmax.cu -o glmax glmax.cu(11): error: identifier

1열

2답변

Kepler에서 전역 원자 연산은 어떻게 구현됩니까? 나는 atomics를 사용하는 것보다 gemem을 사용하는 것이 더 적은 것을 얻었습니다.

저는 케플러에서 글로벌 어 그리 믹스의 구현을 알고 싶습니다. I 이것을 위해 라인 (4)을 변경하면 1. if (threadIdx.x < workers) { 2. temp = atomicAdd(dst, temp + rangeOffset); 3. if (isLastPartialCalc(temp)) { 4. atomicAdd(dst,-30

4열

2답변

여러 변수가 포함 된 사용자 정의 원자 함수를 구현하려면 어떻게해야합니까?

나는 CUDA이 원자 기능을 구현하고 싶습니다 : __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowe

3열

1답변

OpenGL을 원자 카운터

나는 원자 카운터 버퍼와 SSBO에서 원자 변수 사이의 성능 차이가없는 상태이 문서를 건너 왔어요 NVIDIA와 AMD GPU가 지금 있습니까? Radeon 5870 세대 GPU가 원자 카운터 하위 집합에 대해보다 빠른 지원을한다는 것을 기억하고 있습니다. 그래서 성능면에서 AMD 특정 제품일지도 모릅니다. nvidia CUDA에 대한 지식에서 나는 결코

3열

7답변

CUDA : 축소 또는 원자 연산?

주어진 매트릭스의 최대 값을 계산하고 가능성을 평가하는 CUDA 커널을 작성하고 있습니다. 내가 찾을 수있는 가장 좋은 방법은 다음과 같습니다. 모든 스레드가 공유 메모리에 값을 저장하고 그 이후에 감소 알고리즘을 사용하여 최대 값을 결정하도록 강요합니다 (최소 분산 제한 : 공유 메모리가 2.0 장치에서 48KB로 제한됨).) 읽기 작업과 쓰기 작업이 모

14열

1답변

CUDA 원자 연산 목록

원자 연산의 전체 목록이 있는지 궁금합니다. 나는 인터넷에서 그런 것을 발견 할 수 없었다.

0열

1답변

왜 CUDA 원자 함수가 작동하지 않습니까?

문제는 을 int 배열에 적용하려고합니다. 내 배열은 6 개 요소를 가지고 있으며, 코드는 다음과 같습니다 나는 최소의 요소 위치가 최소의 요소를 반환 할 수없는 6 경우 6 개 스레드와 커널 코드를 호출하고 #include <stdlib.h> #include <stdio.h> __global__ void kernel(int * globalmax, i

0열

1답변

CUDA의 원자 연산

다음 프로그램은 'Cuda By Example'의 원자 잠금 구현을 사용했지만 프로그램을 실행하면 시스템이 정지됩니다. 누군가 내 프로그램에 어떤 문제가 있다고 말할 수 있습니까? 덕분에 많은 이페이 #include <stdio.h> __global__ void test() { __shared__ int i, mutex; if (

0열

1답변

CUDA : 공유 메모리의 원자 적 연산

내 cuda 커널은 블록 실행이 끝날 때 호스트에 제공되는 것을 생성합니다. 해골은 다음과 같습니다. 데이터가 기록되는 host_data가 호스트 매핑 된 메모리로 할당됩니다. host_data_count는 생성 된 데이터의 수를 나타내는 메모리에도 매핑됩니다. 내가 사용하는 GPU는 페르미 아키텍처 및 CC 2.0이 적용된 GTX 580입니다. __glo