jcuda

0열

2답변

Java로 작성된 프로그램에서 GPU 계산을 구현 중입니다. 그 목적을 위해 나는 jcuda 바인딩을 사용하고 있습니다. 때로는 상대적으로 큰 배열의 장치 메모리 전송에 빠른 호스트가 필요합니다. 스트림을 사용하려면 고정 된 메모리를 사용해야합니다. 문제는 내가 호스트의 고정 된 메모리를 cca 600 MB보다 큰 RAM에 할당하려는 경우 "CUDA_ERR

1열

1답변

JCuda : 장치에서 호스트로 다차원 배열을 복사하십시오.

저는 몇 달 동안 JCuda를 사용 해왔고 장치 메모리에서 호스트 메모리로 다차원 배열을 복사 할 수 없습니다. 재미있는 점은 반대 방향으로는 아무런 문제가 없다는 것입니다 (다차원 배열로 커널을 호출 할 수 있고 모든 것이 올바른 값으로 작동 함). 몇 마디로 말해, 커널의 결과를 2 차원 배열의 단락에 넣었습니다.이 배열의 첫 번째 차원은 스레드의 수로

-5열

1답변

cuda 런타임 API 및 동적 커널 정의

드라이버 api를 사용하면 동일한 애플리케이션 ([1])에서 런타임 API의 사용을 배제합니다. 불행히도 cublas, cufft 등은 모두 런타임 API를 기반으로합니다. cuModuleLoad와 cublas 에서처럼 동적 커널 정의를 원할 경우, 옵션은 무엇입니까? 나는 이것을 염두에두고 있지만 어쩌면 더 많은 것들이 있습니다 : 가. 동일한 응용 프로

0열

1답변

jCuda에서 인덱싱 포인터 함수

jCuda에서 pointer.to (int []) 함수를 사용하여 하나의 인덱스에 어떻게 1D "결과"배열을 만들 수 있습니까? "Result"의 첫 번째 n 위치와 Result [0 + chunk] 이후의 데이터의 다음 덩어리에 데이터 덩어리를 쓰고 싶습니다. C와는 달리, 나는 결과 + 청크를 말할 수없고 삶을 살아갈 수 없다. 어떻게하면 중간 위치에

1열

2답변

는 + = assignement

와 루프 중첩 된 I가 자바에 다음 코드 : 당신이 거기에 진짜 논리를 검색해서는 안 float in[][] = new float[2][2]; float B[] = new float[2]; float A[] = new float[2]; float res[] = new float[A[0].length]; for(float r : res){

0열

1답변

JCuda에서 제공하는 무료 기능으로 JCuda에서 GPU 메모리를 해제하는 방법은 실시간 응용 프로그램에서 GPU 메모리를 해제하지 않습니까?

CUdeviceptr deviceInputA = new CUdeviceptr(); cuMemAlloc(deviceInputA, size * Sizeof.DOUBLE); cuMemcpyHtoD(deviceInputA, Pointer.to(inputfingerprint), size * Sizeof.DOUBLE); cuMemFree(deviceInputA

0열

1답변

nvprof를 사용하지 않고 CUDA 이벤트 시작 및 종료 시간을 얻는 방법

일부 CUDA 커널을 실행하기 위해 JCuda를 사용하는 Java 코드를 작성했습니다. 스트림이 겹쳐지고 겹쳐져있는 것을 이해하기 위해 어플리케이션을 프로파일 링하고 싶습니다. 커널의 실행 시간을 얻기 위해 cudaEventElpasedTime과 같은 cuda 이벤트 호출을 사용할 수 있지만 같은 커널에 대해 시작 및 종료 타임 스탬프를 얻는 방법을 모르겠

0열

1답변

JCuda의 JCublas2.cublasSdot : 결과에 대한 포인터를 사용하지 못했습니다. 포인터 매개 변수

JCublas2.cublasSdot에 대한 소스 코드의 설명에서 '결과'매개 변수는 '호스트 또는 장치 포인터'일 수 있습니다. public static int cublasSdot( cublasHandle handle, int n, Pointer x, int incx, Pointer y, int incy,

0열

1답변

GTX1080에서 약 2.2GB의 메모리를 사용한 후 CUDA 메모리 부족 메시지가 발생했습니다.

저는 JCuda 버전 0.8.0RC와 CUDA 8.0을 사용하여 GTX1080 GPU에서 행렬 곱셈을 수행하고 있습니다. 행렬 벡터 형식으로 두 개의 행렬 A와 B를 장치에로드하고 장치에서 행렬을 읽습니다. 그러나 나는 예상보다 일찍 장치 메모리가 부족하다는 것을 알고 있습니다. 예를 들어 행렬 A의 크기가 100,000 * 5000 = 5 억 항목 = 2

2열

1답변

Java에서 작동중인 CUDA 코드를 실행하는 가장 쉬운 방법은 무엇입니까?

C에서 작성한 CUDA 코드가 있는데 정상적으로 작동하는 것처럼 보입니다 (일반 C 및 C++이 아님). Hadoop 클러스터를 실행하고 코드를 통합하여 이상적으로 Java 내에서 실행하려고합니다. (긴 이야기 : 시스템이 너무 복잡합니다.) 현재 C 프로그램은 로그 파일을 분석 한 다음 GPU에서 각 행을 병렬로 처리 한 다음 특정 오류/트랜잭션을 연결된