계산 기능 3.5의 장치, 특히 방송 동작에 대한 상수 캐시와 텍스처 캐시의 차이에 관심이 있습니다. 워프의 모든 스레드가 상수 메모리에서 동일한 데이터 요소에 대한 요청을 발행하고 캐시에 도달하면 단일 주기로 모든 스레드에 브로드 캐스팅됩니다. 이 경우 텍스처 캐시의 동작은 무엇입니까? 로드가 직렬화 되나요?Constant cache vs CUDA에서의 방송 행동을위한 텍스처 캐시
또한 상수 및 텍스처 캐시가 다중 프로세서 당 여러 블록으로 공유된다고 생각하는 것이 맞습니까?
답장을 보내 주셔서 감사합니다. 데이터가 8 주기로 반환되면이 값이 상수 캐시보다 느려 집니까? 1 개의 명령 문제가 단일 사이클을 수행합니까? – user1096294