2017-10-28 14 views
0

헤드 노드가 공용 네트워크에 고정 IP로 구성된 Rocks (Centos 6.2 기반) 클러스터를 유지 관리하고 내부 노드의 컴퓨팅 노드에 대해 NAT 라우터 역할을 수행했습니다. 사설망. 노드는 표준 이더넷과 QDR Infiniband를 통해 헤드 노드에 연결됩니다.클러스터 헤드 노드에 DNS 오류가 발생합니다. 호스트 노드를 확인할 수없는 노드 계산

최근에 컴퓨팅 노드는 wget을 사용하여 공개적으로 사용 가능한 데이터 집합을 풀 때 DNS 조회가 실패 할 때 계산을 시작하기 위해 외부 데이터 원본에 액세스 할 수 없었습니다. 모든 계산 노드는 /etc/resolv.conf에있는 헤드 노드의 IP로 구성되어 있으며 헤드 노드에서 iptables 방화벽을 검사했지만 아무 것도 변경되지 않았습니다. SSH는 모든 노드와 헤드 노드 사이에서 작동합니다. 수동으로 시작된 전송을 위해 일부 데이터 소스의 IP 주소를 사용하면 데이터가 다시 흐르고 일부 애플리케이션은 IP를 사용하여 데이터를 가져올 수 없습니다. 나는 named와 iptables 방화벽을 재시작하려고 시도했지만, 지금까지 아무것도 수정하지 않았다. 시스템 로그 (dmesg,/var/log/messages)는 갑작스러운 실패 또는 오류 메시지를 표시하지 않으며, 최근 구성을 변경하지 않았으며 약 2 일 전까지 모든 것이 여러 달 동안 정상적으로 작동했습니다. 헤드 노드는 이름에 액세스하고이를 해결할 수 있습니다. 작동하지 않는 것은 NAT 헤드 노드 뒤의 계산 노드뿐입니다.

저는 아직 Rocks의 모든 작업에 익숙하지 않습니다.이 작업을 다시하기 위해 간과 할 몇 가지 특별한 바위 명령이 있는지 확실하지 않습니다. DNS 확인이 다시 작동하려면 무엇이 누락 될 수 있습니까?

미리 감사드립니다.

업데이트 : DNS가 계산 노드와 헤드 노드 사이에서 내부적으로 작동합니다 (예 : compute-10-10이 다른 노드의 IP 주소로 해석 됨). 그러면 헤드 노드가 클러스터 DNS로 올바르게 작동합니다. 로컬 영역 외부의 도메인에 대한 요청은 모든 계산 노드에서 여전히 실패합니다 (예 : nslookup google.com이 실패 함).

답변

0

루트 원인은 실패한 업스트림 DNS 서버입니다. /etc/named.conf 전달자 옵션을 다른 서버에 다시 구성하면 모든 계산 노드가 외부 리소스에 다시 액세스 할 수 있습니다.