현재 분산 된 교육 구현으로 잠시 게임을 한 후에는 각 GPU를 별도의 작업자로 간주합니다. 그러나 이제는 하나의 상자에 2 ~ 4 개의 GPU가있는 것이 일반적입니다. . 단일 박스 멀티 GPU 방법론을 채택하여 단일 박스에서 평균 그래디언트를 먼저 계산 한 다음 여러 노드에서 동기화하는 것이 더 좋지 않습니까? 이렇게하면 I/O 트래픽이 많이 줄어들고 데이터 병렬 처리에서 항상 병목 현상이 발생합니다.멀티 GPU 방법론을 사용한 텐서 흐름 분산 학습 하이브리드
모든 GPU를 작업자로 단일 상자에 넣는 것이 가능하다고 들었지만 SyncReplicasOptimizer가 옵티 마이저를 직접 입력으로 사용하기 때문에 SyncReplicasOptimizer로 평균 그래디언트를 연결하는 방법을 알 수 없습니다.
누구로부터 아이디어가 있습니까?