Constant cache vs CUDA에서의 방송 행동을위한 텍스처 캐시

계산 기능 3.5의 장치, 특히 방송 동작에 대한 상수 캐시와 텍스처 캐시의 차이에 관심이 있습니다. 워프의 모든 스레드가 상수 메모리에서 동일한 데이터 요소에 대한 요청을 발행하고 캐시에 도달하면 단일 주기로 모든 스레드에 브로드 캐스팅됩니다. 이 경우 텍스처 캐시의 동작은 무엇입니까? 로드가 직렬화 되나요?Constant cache vs CUDA에서의 방송 행동을위한 텍스처 캐시

또한 상수 및 텍스처 캐시가 다중 프로세서 당 여러 블록으로 공유된다고 생각하는 것이 맞습니까?

출처

2014-02-28 user1096294

NVIDIA는 상수 캐시의 크기 또는 위치에 대한 추가 정보를 제공하지 않습니다.

텍스처 캐시의 수는 다양합니다. SM 당

는

CC 2.0 1 텍스처 유닛 (경사 스케줄러 당 1) SM 당
CC 2.1 2 텍스처 유닛 (경사 스케줄러 당 1) SM 당
CC 3.0/3.5 4 텍스처 유닛
CC 3.2/gk208 2 SM 당 텍스쳐 유닛 (워프 스케쥴러 당 1 개)

블록 내의 워프는 SM의 워프 스케줄러에 걸쳐 할당됩니다.

워프에있는 32 개의 스레드 모두가 동일한 주소에 대한 색인 된 상수 읽기를 수행하는 경우 요청이 캐시에있는 경우 1 명령 문제에서 수행됩니다.

워프에있는 32 개의 스레드가 모두 CC3.5 텍스처 캐시의 동일한 주소로 LDG를 수행하면 데이터가 요청되어 8 사이클에 걸쳐 반환됩니다.

출처

2014-02-28 06:24:50

답장을 보내 주셔서 감사합니다. 데이터가 8 주기로 반환되면이 값이 상수 캐시보다 느려 집니까? 1 개의 명령 문제가 단일 사이클을 수행합니까? – user1096294

Constant cache vs CUDA에서의 방송 행동을위한 텍스처 캐시

답변

관련 문제