gpgpu

    4

    2답변

    2D 컨볼 루션과 같은 이미지 처리가 많은 프로그램을 .NET에서 개발 중입니다. 그들 GPGPU (병렬 처리)와 함께 그래서, 나는 몇 가지 선택 : Microsoft Accelerator, OpenCL.Net, ... 어느 것이 나를 위해 더 좋습니까? 어떤 것들은 나를 위해 중요 : 속도, 호환성 (GPU가 지원하지 않는 경우, 발생하는 예를 들면?)

    5

    1답변

    NVCC는 장치 코드를 얼마나 잘 최적화합니까? 상수 폴딩 (form folding)과 일반적인 서브 표현식 제거 (subexpression elimination)와 같은 최적화를 수행합니까? 이것에 float a = 1/sqrtf(2 * M_PI); float b = c/sqrtf(2 * M_PI); : 예는, 다음을 줄일 수 float a = 1/

    3

    4답변

    저는 현재 작은 행렬과 벡터에 선형 대수를 할당하는 알고리즘을 구현하고 있습니다. 코드가 빠르지 만, CPU 대신 gpgpu에서 구현하는 것이 타당한 지 궁금합니다. 전처리 단계로 gpu 메모리에 대부분의 행렬과 벡터를 저장할 수 있으며, 프로파일에 곱셈 알고리즘, 알고리즘이 있습니다. 알고리즘은 gpu에서 편한 방법입니다. 하지만 지금은 내 질문에 대한

    4

    2답변

    NVIDIA Fermi 아키텍처 (cuda의 doc 폴더에있는 Compute_profiler.txt 파일)의 성능 카운터 이름을 살펴보면 L2 캐시 실패의 경우 2 개의 성능 카운터 인 l2_subp0_read_sector_misses 및 l2_subp1_read_sector_misses. 그들은 L2의 두 조각을위한 것이라고 말했다. 두 개의 L2 조각이

    1

    1답변

    L2 캐시가 여러 커널 호출 사이에서 해제되는지 궁금합니다. 예를 들어 데이터에 대한 사전 처리 작업을 수행하는 커널과이를 사용하는 두 번째 커널이 있습니다. 데이터 크기가 768KB 미만인 경우 더 우수한 성능을 얻을 수 있습니까? 나는 NVidia 녀석들이 그렇지 않으면 구현할 이유가 없다고 생각하지만 어쩌면 내가 틀렸을 것입니다. 아무도 그 경험이 있

    6

    2답변

    동일한 작업을 여러 번 미리 수행하는 알고리즘을 연구 중입니다. 연산이 일부 선형 대수 (BLAS)로 구성되어 있기 때문에 GPAS를 사용해 보겠습니다. 커널을 작성하고 명령 대기열에서 커널을 시작하기 시작했습니다. 각 통화가 끝날 때까지 기다리지 않으려 고하기 때문에 이벤트를 통해 통화를 데이지 체인으로 연결하고 대기열에 넣기 시작합니다. call ker

    3

    3답변

    GPUs은 과학 시뮬레이션 (천체 물리학/우주론)에서 어떻게 그리고 어디에서 사용됩니까?

    0

    1답변

    win-XP + VS2005에서 Merrill의 기수 정렬을 컴파일하려고 할 때 오류가 있습니다. 오류 : asm 피연산자 유형 size (1)이 (가) 제약 조건 'r'에 의해 암시 된 유형/크기와 일치하지 않습니다. 이 나타납니다 는 다음 코드에서 발생 #define B40C_DEFINE_GLOBAL_LOAD(base_type, dest_type, sh

    1

    2답변

    하나의 변수가 특정 값으로 설정 될 때까지 일부 블록을 차단하고 싶습니다. 그래서 간단한 do-while 루프가 작동하는지 테스트하기 위해이 코드를 작성합니다. __device__ int tag = 0; __global__ void kernel() { if (threadIdx.x == 0) { volatile int v; d

    0

    2답변

    Nvidia GPU 컴퓨팅 SDK의 예제를 기반으로 nbody 시뮬레이션을 위해 두 개의 커널을 만들었습니다. 공유 메모리를 사용하지 않는 첫 번째 커널은 공유 메모리를 사용하는 두 번째 커널보다 ~ 15 % 빠릅니다. 공유 메모리가있는 커널이 왜 느린가요? 커널 매개 변수 : 8192 본문, 블록 당 스레드 = 128, 그리드 당 블록 = 64. 장치 :