2017-10-15 22 views
0
내가 명령 토크 PBS를 통해 클러스터에서 시작 작업을 시도

Torque qsub가 출력 파일을 생성하지 않는 이유는 무엇입니까?

qsub -o a.txt a.sh 

파일 a.sh 단일 문자열을 포함 :

나는 다음 출력을 제공하는, qstat를 명령을 명령 qsub를 한 후
hostname 

:

Job ID     Name    User   Time Use S Queue 
------------------------- ---------------- --------------- -------- - ----- 
302937.voms    a.sh    user   00:00:00 E long 

5 초 후에 명령 qstat는 빈 출력 (대기열에있는 작업 없음)을 반환합니다. 명령

qsub --version 

출력을 제공 : 버전 : 2.5.13

명령

which qsub 

출력 :는/usr/빈/qsub를

문제는이 파일 a.txt이 (명령 qsub -o a.txt a.sh에서 생성)가 작성되지 않았습니다! 터미널에서 반환 된 작업 ID는 오류가 없습니다. 명령

qsub a.sh 

의 동작은 동일합니다. 어떻게 해결할 수 있습니까? 오류가있는 qsub 로그 파일은 어디에 있습니까? 내가 명령을

qsub -l nodes=node36:ppn=1 -o a.txt a.sh 

후 출력 파일을 사용하는 경우

내가 node36에 폴더

/var/spool/pbs/undelivered 

에서 찾을 수 있습니다 (거기에 SSH 로그인 후). 출력 파일에 "node36"문자열이 포함되어 있으면 오류 파일이 비어 있습니다. 내 파일이 "배달되지 않은"이유는 무엇입니까?

답변

1

출력 로그 및 오류 로그 파일은 실행 노드의 스풀 디렉토리에 보관되고 작업 완료 후 헤드 노드로 다시 복사됩니다. 스풀 디렉토리의 위치는 다를 수 있습니다. 그러나 작업이 할당 된 노드 목록의 첫 번째 노드에서 을 찾아야합니다. /var/torque/spool 아래에 있어야합니다.

토크가 출력 파일을 전달하지 못할 수있는 원인은 여러 가지가 있습니다.

  • 작업을 제출하는 사용자가 노드에 없거나 해당 홈 디렉토리에 액세스 할 수 없거나 클러스터 노드간에 사용자 ID 불일치가 있습니다.
  • 토크는 파일을 헤드 노드에 복사하는 데 ssh를 사용하지만 클러스터를 통해 ssh를 사용하도록 사용자를위한 암호없는 공개 키 인증이 모든 노드에서 일관되게 설정되지 않았습니다.
  • 작업 실행 중에 노드가 실패했습니다.
  • 이 목록은 완전하지 않습니다. 이미 Stack Overflow에서 이러한 실패를 다루는 많은 질문을 찾을 수 있습니다. 위의 사항 중 하나라도 해당되는지 확인하십시오.

    +0

    안녕하세요! 감사합니다!내 질문을 편집 - 노드에/var/spool/pbs/undelivered 폴더에 저장된 파일. ssh 키로 인한 문제점? 어떻게 해결할 수 있습니까? – r1d1

    +1

    @ r1d1 대화 할 클러스터 관리자가 있다면 확실히해야합니다. 그래서 나는 이것이 선택 사항이 아니라고 생각합니다. 문제가 ssh 키로 인한 것이면 [다음 링크] (http://www.drugdesign.gr/blog/how-to-setup-passwordless-ssh-access-between-nodes-in-a-cluster)에는 너를 거기에 가야 할 조리법. –