2012-04-17 3 views
0

이는 관리자 만 해결할 수있는 클러스터 관련 문제 일 수 있지만 우선 순위가 낮은 작업이 있고 우선 순위가 높은 작업이있을 경우 프로세스가 종료됩니다.Sun Grid Engine이 재시작 작업 대신 일시 중지

높은 우선 순위 작업이 완료되면 우선 순위가 낮은 작업이 다시 시작됩니다. 프로세스를 죽이지 않고 원래 SIGSTOP이나 다른 것을 통해 시작된 머신에서 일시 중지되도록 사용자 측에서 방법이 있습니까? 불행히도 체크 포인트는 여기에 옵션이 아니므로 메모리에있는 것을 버리지 않고 작업을 유지할 수 있기를 바랍니다.

우리는이 기계에 ssh가 않기 때문에 다른 모든 실패하면, 난 그냥 원하는 동작 얻을 수있는 정말 실수 스크립트 해킹 할 유혹 해요 :

1. start the process locally 
2. send a SIGSTOP 
3. make the job script send SIGCONT and just spin watching the process 
4. when the job gets suspended, send a SIGSTOP again 
5. when the job gets resumed, it should just send a SIGCONT 

을하지만 난 차라리 모든 것을 할 것

답변

1

SGE의 일시 중단/중지 메커니즘은 suspend_method, resume_methodterminate_method 속성으로 대기열별로 제어됩니다. 기본값은 다음과 같습니다

  • suspend_method

    이 -
  • resume_method SIGSTOP
  • 을 보낼 -
  • terminate_method SIGCONT
  • 을 보내 - 나는에 SGE에 대한 다른 이유를 볼 수있는 기본 값으로 장난보다 보내 SIGKILL

기타 그들을 멈추게하는 대신 일자리를 죽여라.

+0

일반 사용자가 이러한 속성을 변경하거나 관리자 만 대기시킬 수있는 방법이 있습니까? – zje

+0

큐 속성을 변경하려면 루트 또는 SGE 운영자 권한이 필요합니다. –