slurm

    4

    1답변

    joblib과 multiprocessing을 사용하여 코드의 일부를 병렬로 실행하는 Python 코드가 있습니다. 작업 관리자를 사용하여 4 개의 코어를 모두 사용하고 코드를 병렬로 실행한다는 것을 알기 위해 데스크탑에서이 문제를 실행하는 데 문제가 없습니다. 나는 최근에 100 개 이상의 코어 노드가있는 HPC 클러스터에 액세스 할 수 있음을 알게되었습니

    1

    1답변

    저는 SLURM을 사용하는 컴퓨팅 클러스터에서 유료 사용자입니다. 간혹 사용자를 지불하는 데 시간이 오래 걸리고 여러 작업이 쌓여 막혔습니다. 이로 인해 관리자가 작업을 취소했습니다. 현재는 사용할 수있는 노드의 수를 제한했습니다. 이 배열의 형평성을 주장하는 것은 아니지만 작업을 수행하는 측면에서 이것은 문제가됩니다. 특히 노드 뚜껑을 통과하는 작업을 기

    1

    2답변

    SLURM 명령 (salloc, sbatch, srun)을 사용할 때 --account를 지정하도록 SLURM을 구성하는 방법을 알아 내려고합니다. 효과적으로 기본 계정 동작을 사용하지 않도록 설정하려고합니다. 아무에게도이 작업을 수행하는 간단한 방법이 있습니까?

    2

    1답변

    SLURM 클러스터에서 MPI 작업을 실행하고 결과 프로세스를 노드의 특정 코어에 고정하려고합니다. 여기에는 서로 다른 노드에있는 프로세스의 수와 다른 노드의 다른 고정 패턴이 포함될 수 있습니다. salloc을 사용하여 노드를 할당하고 mpi 프로세스에 대한 순위 파일을 만들고 mpirun을 사용하여 프로세스를 시작하면 비교적 간단합니다. 유감스럽게도 시

    1

    2답변

    SLURM cluster으로 설정하고 싶습니다. 최소한 몇 대의 기계가 필요합니까? 2 대의 컴퓨터로 시작할 수 있습니까? 하나는 클라이언트이고 다른 하나는 클라이언트와 서버입니다.

    0

    1답변

    Slurm에서 sbatch 명령 줄 도구와 함께 제출 된 작업은 해당 작업 ID를 반환합니다. Perl API을 사용하여 작업 ID를 얻으려면 어떻게해야합니까?

    2

    1답변

    일괄 처리 작업을 SLURM에 제출하려고 시도하지만 계속 JobState=FAILED Reason=NonZeroExitCode이됩니다. 일반 g ++에서 코드를 컴파일하고 실행할 수 있지만 SLURM을 사용하여 학교 과제를 작성해야합니다. 내가 제대로 실행하고 있다고 생각하고 루트에서 로그인 노드에서 스크립트 실행을 중단하라는 불쾌한 그램을 얻었다. 어떤

    1

    1답변

    sbatch 스크립트에서 SLURM이 작업을 시작하는 방식에 대해 고민 중입니다. SLURM이 --ntasks 인수를 무시하고 즉시 내 배치 파일에있는 모든 srun 작업을 시작한 것 같습니다. 여기에 예제에 유래에 this answer의 코드에 약간의 수정을 사용한다 : 나는 그것이 srun sleep 10 명령이 완료된 후 실행하도록 기대하는 반면 $

    1

    1답변

    다양한 파티션이있는 slurm 설정이 있습니다. 내 slurm.conf에는 내 파티션을위한 작업을 실행할 수있는 컴퓨터 목록이 있습니다 (예 : PartitionName=hi Nodes=rack[0-4],pc1,pc2 MaxTime=INFINITE State=UP Priority=1000 PreemptMode=off pc1 및 pc2는 3 개의 코어를

    0

    1답변

    저는 각 실제 코어가 두 개의 CPU 할당을 갖는 것으로 간주하도록 구성된 slurm 클러스터의 사용자입니다. 기본적으로 Mathworks는 Matlab이 하이퍼 스레딩을 사용하는 데 이점이 없다고 판단하여 Matlab은 실제 코어 당 최대 하나의 스레드를 생성합니다. 그렇다면 내가 쓰레드의 절반 만 생성 할지라도 작업 당 2 개의 CPU/parpool w