다중 노드 클러스터에서 openMPI 및 mpich2를 설치하려고하는데 두 경우 모두 여러 대의 컴퓨터에서 실행하는 데 문제가 있습니다. MPICH2 사용 나는 헤드 노드에서 특정 호스트에서 실행 할 수 있어요,하지만 난 다른 노드로 컴퓨팅 노드에서 뭔가를 실행하려고하면 내가 얻을 :openMPI/mpich2가 여러 노드에서 실행되지 않습니다.
HYDU_sock_connect (utils/sock/sock.c:172): unable to connect from "destination_node" to "parent_node" (No route to host)
[proxy:0:[email protected]_node] main (pm/pmiserv/pmip.c:189): unable to connect to server parent_node at port 56411 (check for firewalls!)
내가 설정 SGE를 사용하려고하면 비슷한 오류가 발생하는 직업.
한편, 작업을 실행하기 위해 openMPI를 사용하려고하면 헤드 노드에서도 원격 컴퓨터에서 실행할 수 없습니다. 내가 얻을 :
ORTE was unable to reliably start one or more daemons.
This usually is caused by:
* not finding the required libraries and/or binaries on
one or more nodes. Please check your PATH and LD_LIBRARY_PATH
settings, or configure OMPI with --enable-orterun-prefix-by-default
* lack of authority to execute on one or more specified nodes.
Please verify your allocation and authorities.
* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
Please check with your sys admin to determine the correct location to use.
* compilation of the orted with dynamic libraries when static are required
(e.g., on Cray). Please check your configure cmd line and consider using
one of the contrib/platform definitions for your system type.
* an inability to create a connection back to mpirun due to a
lack of common network interfaces and/or no route found between
them. Please check network connectivity (including firewalls
and network routing requirements).
기계가 서로 연결되어, 나는 MPI_LIB과 PATH 잘 모든 시스템에 설정되어, 다른에의에서 등 passwordlessly SSH, Ping 할 수 있습니다.
을 나는이 모든 일을하고 있다면 아직도 얻고 무엇 'ORTE는 하나 이상의 데몬을 안정적으로 시작할 수 없습니다 .' –