이 문제를 해결하는 데 중요한 점은 작업이 실행되는 노드가 작업 상태 전자 메일을 보내야한다는 것입니다. 예를 들어, 다음과 같은 출력을 가진 테스트 작업이 있습니다.
#!/bin/bash
#
#$ -N MAIL
#$ -j y
#$ -m easb
#$ -M pkenyon
hostname
이제 작업을 실행하고 실행 된 부분을 확인하십시오.
[[email protected] ~]$ qsub mail.sh
Your job 346 ("MAIL") has been submitted
[[email protected] ~]$ cat MAIL.o346
node03.cluster
시스템의 메일 로그를 보면 전달 시도가 표시됩니다. 거기서 진단해야합니다.
- 는 계산 노드 주소로 전송,
-M pkenyon
...
Jun 5 13:56:00 node04 postfix/local[13141]: 14A3E143320: to=<[email protected]>, orig_to=<pkenyon>, relay=local, delay=0.05, delays=0.03/0/0/0.01, dsn=2.0.0, status=sent (delivered to mailbox)
...
사용 : 여기에 (길에서 성공하지 않거나 심지어 성공 당신이 그들이 원하는) 오류에 대한 몇 가지 예입니다 헤드 노드 MX는를 사용하는 경우 로컬 메일 릴레이를 사용하도록 시스템을 설정해야
-M [email protected]
...
Jun 5 14:00:30 node04 postfix/smtp[13283]: 35CC4143320: to=<[email protected]>, relay=none, delay=0.36, delays=0.17/0/0.19/0, dsn=5.4.4, status=bounced (Host or domain name not found. Name service error for name=head.cluster type=AAAA: Host not found)
...
사용 권한을 설정하지
...
Jun 5 12:20:47 node04 postfix/smtp[12798]: 1EEA5143320: to=<[email protected]>, relay=ASPMX.L.GOOGLE.com[64.233.168.27]:25, delay=0.64, delays=0.04/0/0.59/0.02, dsn=5.0.0, status=bounced (host ASPMX.L.GOOGLE.com[64.233.168.27] said: 550 Relay not permitted (in reply to RCPT TO command))
...
는 그래서 그래, 당신은 당신의 클러스터 시스템 관리자에게 이야기해야하지만이는 SGE 이메일가 걸려있다 곳을 파악하는 첫 번째 단계입니다. 정보가 조금 있으면 관리자는 구성 문제를 해결하고 클러스터 환경을 최대한 활용할 수 있습니다.
큰 충고 폴 폴은 분명히 나에게 뭔가를 줄 것이다. –