qsub
작업을 StarCluster/SGE 클러스터에서 수행 할 때 각 노드가 한 번에 최대 하나의 작업을 수신하도록하는 쉬운 방법이 있습니까? 여러 개의 작업이 메모리 부족 (OOM) 문제로 이어지는 동일한 노드에서 끝나는 문제가 있습니다.SGE (StarCluster/SunGridEngine)에서 노드 당 하나의 작업 보장
나는 -l cpu=8
을 사용해 보았습니다.하지만 USED 코어의 수를 상자 자체의 코어 수만 확인하지는 않았습니다.
또한 -l slots=8
시도하지만 내가 얻을 :
Unable to run job: "job" denied: use parallel environments instead of requesting slots explicitly.
이 더 있습니까 –
제한된 노하우로 qsub를 사용하는 노드 당 1 슬롯으로 제한하는 직접적인 방법이 없습니다. SGE가 부하 분산을 처리한다는 아이디어가 있습니다. 위의 메모리 트릭의 대안은 병렬 환경을 사용하고 작업 당 많은 슬롯을 요청하는 것입니다. 따라서 SGE를 속여 노드가 가득 찼다 고 생각하게 만듭니다. 또는 SGE에 대한 관리자 액세스 권한이있는 경우 노드 당 슬롯이 1 개 할당 된 다른 대기열을 만드는 것이 가장 좋은 해결책 일 수 있습니다. 방금 내가 가진 또 다른 아이디어는 ...'-l hostname ='옵션을 사용하여 특정 호스트를 타겟팅 할 수 있지만 bash 스크립팅이 필요합니다. –
Vince