thrust

    1

    1답변

    단일 GPU에서 현재 작동중인 추력을 사용하는 Cuda C++ 코드가 있습니다. 다중 - GPU 용으로 수정하고 싶습니다. 나는 정렬, 복사, 차이점 등을 장치 배열에 계산하는 많은 추력 호출을 포함하는 호스트 기능을 가지고있다. 각각의 GPU를 사용하여이 일련의 Thrust 호출을 자신의 (독립적 인) 배열 집합으로 동시에 실행하려고합니다. 나는 값을 반

    2

    2답변

    장치 할당 메모리에 thrust :: reduce 작업의 반환 값을 남겨 둘 수 있습니까? 그렇다면 cudaMalloc 영역에 값을 할당하는 것만 큼 쉽습니까? 아니면 thrust :: device_ptr을 사용해야합니까?

    0

    1답변

    저는 Cuda Thrust를 배우고 있습니다. 커널에서 사용하기 위해 host_vector에서 디바이스 배열로 객체를 전송하려고합니다. TH <0>, num_layers <1428486120> TH <1>, num_layers <1428486120> TH <0>, dz <0.000000> TH <1>, dz <0.000000> TH <0>,

    0

    1답변

    스러스트 프레임 워크의 멋진 반복자 중 하나에서 파생 된 표준 방법은 무엇입니까? 배열 구조에 3D 점을 저장합니다. 이제 blas vector 타입을 얻는 편리한 방법에 대해 생각해 보았습니다. 내가 생각해내는 것은 이런 것입니다 : namespace abc { typedef VERY_BASIC_LINEAR_ALGEBRA_VECTOR_CLASS_

    0

    1답변

    추력 루틴이 차단 중이거나 차단되지 않는다고 말할 수 있습니까? - 2 clock_t start,end; start = clock(); thrust::transform(a.begin(), a.end(), b.begin(), thrust::negate<int>()); cudaThreadSynchronize(); end = clock(); 코드 -1

    2

    1답변

    정렬 용 추력 예제를 실행했습니다. 문제는 thrust::sort 다음에 출력에 모두 0이 포함되어 있다는 것입니다. 제발, 여기서 뭐가 잘못 됐는지 말해줘. #include <thrust/host_vector.h> #include <thrust/device_vector.h> #include <thrust/copy.h> #include <thrust

    0

    1답변

    새로운 thrust :: tabulate 기능은 호스트에서는 작동하지만 디바이스에서는 작동하지 않습니다. 이 장치는 계산 기능이있는 K20x입니다 3.5. 호스트는 128GB의 메모리를 가진 Ubuntu 머신입니다. 도움? 장치에서 통일 된 주소 배열을 정렬 할 수 있기 때문에 통일 된 주소 지정이 문제가 아니라고 생각합니다. #include <iostre

    1

    2답변

    추력을 사용하여 다음 작업을 수행하는 가장 좋은 방법을 찾으려합니다. 벡터 A에는 100 만개의 부동 소수점이 있으며 특정 순서가 있습니다. I가되는 X> 7.0 요소의 순서는 모두 벡터 중요한 A 및 B에 유지되어, 것을 요소의 단지 작은 분획이 될 필요 벡터 B에 이동 모든 요소 X하려는 움직이는. 우아함보다 효율성이 더 중요합니다. 제 아이디어는 A에

    1

    1답변

    GPU 프로그래밍에 익숙해지기 위해 기본 cuda/thrust 코드를 작성하는 데 문제가 있습니다. 나는 아마도 그것을 올바르게 컴파일하지 않을 것이므로 내가 뭘 잘못하고 있는지 알고 싶습니까? 나는 다음과 같은 지침 내가 연결 오류 얻을 그러나 nvcc -c gpu_functions.cu nvcc gpu_functions.o gpu_test.cu -o

    1

    1답변

    4D 데이터가있는 프로그램을 만들고 있습니다. 반복에서 4 차원을 반복하고 원래 float 인 3D 데이터를 가져 와서 해당 데이터를 cufftComplex으로 변환 한 다음 푸리에 변환과 같은 여러 장치 작업 (cufft 라이브러리), 이미지 denoising (my 자신의 cuda 커널). 푸리에 변환 후에 이러한 연산 사이의 루프에있는 동안 특정 반복