2013-10-27 6 views
0

OpenMPI 응용 프로그램에서 간단한 결함 허용 기능을 구현하도록 지정 받았습니다. 우리가 겪고있는 문제는 우리의 노드 중 하나가 클러스터에서 분리되어 MPI_ERRORS_RETURN로 처리 MPI 오류를 설정에도 불구하고 우리는 긴 후 다음 MPI_ 호출에 다음과 같은 오류가 응답받을한다는 것입니다 :OpenMPI 내결함성

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110) 

내 하나의 노드가 OpenMPI로 네트워크에서 떨어지면 다른 모든 노드에서 처리를 계속할 수 없다는 것입니다. 누구든지 나를 위해 이것을 확인하거나 btl_tcp_endpoint 오류를 방지하기위한 방향으로 나를 가리킬 수 있습니까?

우리는 OpenMPI 버전 1.6.5를 사용하고 있습니다.

답변

3

MPI_ERRORS_RETURN 코드 경로는 Open MPI에서 잘 테스트되지 않았으며 (잘 구현되지 않았을 수도 있음) 그들은 단순히 우선 순위가 아니기 때문에이 분야에서 실제로 많은 일을 해본 적이 없습니다.

죄송합니다.