2016-10-27 1 views
2

가끔 훈련을 마친 후에 또는 CTRL + C을 눌러 수동으로 교육을 중단 한 경우이 cuda 오류가 발생합니다.Caffe : 교육 후 GPU CUDA 오류 : 오류 == cudaSuccess (30 대 0) 알 수없는 오류

확인 실패 : 오류가 == cudaSuccess (30 대 0) 알 수없는 오류

이는하지만, 최근에 발생하기 시작했다. 누구나 전에 경험했거나 문제를 해결하는 방법이나 문제가 무엇인지 알고 있습니까?

전체 로그 : make all

I1027 09:29:37.779079 11959 caffe.cpp:217] Using GPUs 0 
I1027 09:29:37.780676 11959 caffe.cpp:222] GPU 0: �|��� 
F1027 09:29:37.780697 11959 common.cpp:151] Check failed: error == cudaSuccess (30 vs. 0) unknown error 
*** Check failure stack trace: *** 
    @  0x7f6cc4f465cd google::LogMessage::Fail() 
    @  0x7f6cc4f48433 google::LogMessage::SendToLog() 
    @  0x7f6cc4f4615b google::LogMessage::Flush() 
    @  0x7f6cc4f48e1e google::LogMessageFatal::~LogMessageFatal() 
    @  0x7f6cc5558032 caffe::Caffe::SetDevice() 
    @   0x40b3f8 train() 
    @   0x407590 main 
    @  0x7f6cc3eb7830 __libc_start_main 
    @   0x407db9 _start 
    @    (nil) (unknown) 
+0

이 문제로 인해 프로그램'caffe'이 여전히 실행 또는 자원을 보유하고 발생합니다. 그 경우 그것은 살해 당할 수도 있습니다 아래 대답 내 대답을 참조하십시오 –

답변

2

& CPU에서 실행중인 프로그램을 확인하려면 nvidia-smi 명령을 사용하십시오. ctrl+c을 누른 후 여전히 실행중인 caffe의 원치 않는 인스턴스가 표시되면 프로세스 ID가있는 사용자를 제거해야합니다. 아래처럼 :

+------------------------------------------------------+      
| NVIDIA-SMI 352.63  Driver Version: 352.63   |      
|-------------------------------+----------------------+----------------------+ 
| GPU Name  Persistence-M| Bus-Id  Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr:Usage/Cap|   Memory-Usage | GPU-Util Compute M. | 
|===============================+======================+======================| 
| 0 GeForce GTX 980 Ti Off | 0000:01:00.0  On |     N/A | 
| 58% 83C P2 188W/260W | 1164MiB/6142MiB |  96%  Default | 
+-------------------------------+----------------------+----------------------+ 
| 1 GeForce GTX 980 Ti Off | 0000:02:00.0  Off |     N/A | 
| 53% 73C P2 127W/260W | 585MiB/6143MiB |  35%  Default | 
+-------------------------------+----------------------+----------------------+ 

+-----------------------------------------------------------------------------+ 
| Processes:              GPU Memory | 
| GPU  PID Type Process name        Usage  | 
|=============================================================================| 
| 0  1101 C ...-xx/build/tools/caffe 788MiB | 
| 0  1570 G /usr/bin/X          235MiB | 
| 0  1594 C /usr/bin/python        102MiB | 
| 0  2387 G compiz           10MiB | 
| 0  3984 G /usr/local/MATLAB/R2016a/bin/glnxa64/MATLAB  2MiB | 
| 1  25056 C /usr/bin/caffe         563MiB | 
+-----------------------------------------------------------------------------+ 

모든 확인 실행 한 후이 명령 sudo kill -9 1101

+0

것은 것은 아무것도없는 카페입니다. 나는 이미 그것을 시도했다! **/usr/lib/xorg/Xorg **와 ** compiz ** – thigi

+0

(a) CUDA 8.0을 설치하고 (b) caffe makefile.config.example을 변경하고 " 50 "~"61 " -gencode arch = compute_50, code = sm_50 \ -gencode arch = compute_50, code = compute_50 –

+0

이미 CUDA 8.0이 있습니다. 하지만 두 번째 옵션을 점검 할 것입니다! 알려 드리겠습니다! – thigi

0

시도 ->make test ->make runtest합니다. 작동해야합니다

+0

이 문제는 해제되지 메모리 리소스로 인해 발생합니다. 건물 카페는 이것을 고치지 않을 것입니다 –

0

죽일해야 libcudnn libs와 관련하여 몇 가지 오류를 발견, 나는 그들에/usr/lib 디렉토리/x86_64에-리눅스 GNU에 duplicathed했다 및/usr/local/cuda-8.0/lib64./usr/lib/x86_64-linux-gnu에있는 것들만 남겨두고 랩톱을 다시 시작하면 모든 것이 잘 작동합니다.

0

프로그램에서/dev/nvidia-uvm 장치 파일을 만들거나 열 수없는 경우 CUDA 런타임 오류 (30)가 표시 될 수 있습니다. 이것은 일반적으로 설치 패키지 엔비디아으로 modprobe에 의해 고정되어

sudo apt-get install nvidia-modprobe

0

시도가/다시 현재 커널에 대한 엔비디아 드라이버를 구축

는 sudo apt-get을 설치 --reinstall NVIDIA-375

0
sudo apt-get install nvidia-modprobe 

프로그램이 /dev/nvidia-uvm 장치 파일을 만들거나 열 수없는 경우 CUDA 런타임 오류 (30)가 표시 될 수 있습니다. 이것은 일반적으로 패키지 엔비디아으로 modprobe를 설치하여 고정 :

(Source)