2014-02-28 4 views
2

계산 기능 3.5의 장치, 특히 방송 동작에 대한 상수 캐시와 텍스처 캐시의 차이에 관심이 있습니다. 워프의 모든 스레드가 상수 메모리에서 동일한 데이터 요소에 대한 요청을 발행하고 캐시에 도달하면 단일 주기로 모든 스레드에 브로드 캐스팅됩니다. 이 경우 텍스처 캐시의 동작은 무엇입니까? 로드가 직렬화 되나요?Constant cache vs CUDA에서의 방송 행동을위한 텍스처 캐시

또한 상수 및 텍스처 캐시가 다중 프로세서 당 여러 블록으로 공유된다고 생각하는 것이 맞습니까?

답변

1

NVIDIA는 상수 캐시의 크기 또는 위치에 대한 추가 정보를 제공하지 않습니다.

텍스처 캐시의 수는 다양합니다. SM 당

  • CC 2.0 1 텍스처 유닛 (경사 스케줄러 당 1) SM 당
  • CC 2.1 2 텍스처 유닛 (경사 스케줄러 당 1) SM 당
  • CC 3.0/3.5 4 텍스처 유닛
  • CC 3.2/gk208 2 SM 당 텍스쳐 유닛 (워프 스케쥴러 당 1 개)

블록 내의 워프는 SM의 워프 스케줄러에 걸쳐 할당됩니다.

워프에있는 32 개의 스레드 모두가 동일한 주소에 대한 색인 된 상수 읽기를 수행하는 경우 요청이 캐시에있는 경우 1 명령 문제에서 수행됩니다.

워프에있는 32 개의 스레드가 모두 CC3.5 텍스처 캐시의 동일한 주소로 LDG를 수행하면 데이터가 요청되어 8 사이클에 걸쳐 반환됩니다.

+0

답장을 보내 주셔서 감사합니다. 데이터가 8 주기로 반환되면이 값이 상수 캐시보다 느려 집니까? 1 개의 명령 문제가 단일 사이클을 수행합니까? – user1096294