도와 주시겠습니까? Windows 7 x64에서 OpenCL 응용 프로그램을 개발 중입니다. 하드웨어는 Intel Core i5, NVIDIA GTX 770입니다. OpenCL은 가속을 위해 NVIDIA를 사용합니다. Intel VTune Amplifier XE 2015를 사용하려고하면 프로파일 링이 끝날 때 응용 프로그램이 멈추고 보고서가 반환되지 않습니
프로필을 작성하고 싶은 CUDA 응용 프로그램을 만들고 있습니다. 지금까지 내가 사용한 모든 것은 커맨드 라인 프로파일 러 인 nvprof으로 요약 된 통계 만 표시합니다. GUI 프로파일 러 인 NVVP를 사용하려고 생각했습니다. 문제는 응용 프로그램을 실행중인 원격 Linux 노드에 GUI (심지어 X.org)가 없다는 것입니다. 게다가, 원격 노드에서
저는 비교적 CUDA에 익숙하지 않고 현재 gpu가 연결된 임베디드 시스템에서 컴퓨터 비전 응용 프로그램을 가속화하는 프로젝트 (NVIDIA TX1)를 진행 중입니다. 제가하려고하는 것은 OpenCV와 VisionWorks (OpenVX 포함)의 두 라이브러리 중 하나를 선택하는 것입니다. 현재 Canny Edge Detection 알고리즘을 실행하기위한
저는 우분투 11.10 서버 인 CUDA-5.0과 GTX480을 실행 중입니다. Windows 8에서 Xming 및 Cygwin/X를 사용하여 시각적 프로파일 러를 원격으로 실행하려고합니다. xclocks를 성공적으로 실행할 수 있지만 putty 명령 줄에서 /usr/local/cuda-5.0/bin/nvvp를 시작하려고하면, 오류나 경고없이 자동으로 종료
나는 이것을 최적화하기 위해 nvprof and nvvp (5.5)으로 응용 프로그램을 프로파일 링했습니다. 그러나 디버그 (-G) 및 코드의 릴리스 버전을 프로파일 링 할 때 inst_replay_overhead, ipc 또는 branch_efficiency 등과 같은 일부 메트릭/이벤트에 대해 완전히 다른 결과를 얻습니다. 내 질문은 : 그래서 버전을
CUDA 커널을 프로파일 링 할 수있는 옵션이 있습니까? 전체가 아니라 오히려 그 일부입니다. 일부 장치 기능 호출이 있고 시간을 측정하고 싶습니다. NVIDIA Visual Profiler에서 설정할 수있는 플래그/이벤트/지침이 있습니까? 또는 cudaEventCreate 및 이와 유사한 기능을 수동으로 삽입해야합니다.
gst_inst_128bit 명령을 사용하고 싶습니다. 동일한 프로그램에서 nvvp는 많은 gst_inst_128bit 명령을 실행합니다. nsight의 프로파일 러에서 4 배의 gst_inst_32bit 명령어를 얻습니다. 동일한 프로그램이어야합니다. 어떻게 이런 상황이 발생할 수 있습니까? 실험 리눅스, CUDA 5.0, GTX 580 프로그램에 시도에