thrust

    3

    1답변

    내가 같은 길이 의 장치에 정수 dmap 및 dflag의 두 배열을 가지고 있고 추력 장치 포인터로 포장 한 dmapt 및 dflagt 있습니다 값이 -1 인 dmap 배열의 일부 요소 이 -1과 해당 값을 에서 dflag 배열로 제거하고 싶습니다. 이 작업을 수행하려면 remove_if 함수를 사용하고 있지만이 호출의 반환 값 또는 반환 값을 얻으려면 반

    6

    1답변

    매핑 된 메모리에서 제로 복사본을 cudaHostGetDevicePointer으로 사용하고 싶습니다. thrust::host_vector을 사용할 수 있습니까? 아니면 cudaHostAlloc(...,cudaHostAllocMapped)? 을 사용해야합니까 아니면 추력을 사용하는 것이 더 쉽습니까?

    2

    2답변

    32 비트의 정밀도가 필요하지 않은 응용 프로그램을보고 있는데, 12-16 비트이면 충분합니다. 추력은 float16을 처리 할 수 ​​있습니까 (즉, 2 개의 16 비트 정밀도 플로트를 32 비트 워드로 패킹/압축 풀기) 할 수 있습니까? 고정 소수점 연산을 사용해야합니까?

    2

    2답변

    asyncEngineCount = 1 인 GPU GeForce GTX 460SE에 (CUDA C++) 추력을 사용합니다. GPU에서 /로 GPU로 전송하는 데이터를 중첩하여 단일 커널을 실행할 수 있다는 것을 알고 있습니다. 하지만 사용할 때 커널을 실행, GPU에서 전송 이전에 GPU : I는 엔비디아 비주얼 프로파일에서 보는 바와 같이 cudaStrea

    0

    1답변

    나는 간격이나 도메인의 목록을 가지고 있습니다. 각 구간을 k 부분으로 병렬로 세분하여 새로운 목록 (정렬되지 않음)을 만들고 싶습니다. 그러나 대부분의 하위 구분은 특정 기준을 통과하지 않으며 새 목록에 추가하면 안됩니다. cilk :: reducer_list_append와 push_back을 가진리스트를 형성하는 평행 감소의 개념을 확장한다. 이렇게하면

    0

    1답변

    은 내가 스파 스 행렬을 나타 내기 위해이 구조체를 사용하려는 struct Point { int x; int y; float val; } 같은 구조를 가지고 (나는 CUSPARSE과 ​​끝을 알고 모르지만, 난 그냥 추력을 사용하여 몇 가지 테스트를 수행 할 예정) 및 추진 알고리즘을 사용하여 작업을 수행하십시오. 내가 CUDA 프로그래밍 튜토

    1

    3답변

    온라인 (스트리밍) 데이터가 포함 된 프로젝트를보고 있습니다. 나는 그 데이터의 슬라이딩 윈도우로 작업하고 싶다. 예를 들어, 내 벡터에 10 개의 값을 넣고 싶다고합시다. 11 번 값이 오면, 1 번 값을 떨어 뜨리고 모든 것을 옮기고 10 번 값을 11 번 자리에 놓고 싶습니다. int n = 9; thrust::device_vector<float>

    2

    1답변

    그냥 몇 가지 사실 : 추력은 그것의 모든 조작에 적절한 작동하지 않습니다. 사용자 지정 할당자를 thrust::device_vectors에 제공 할 수 있습니다. 나는 thrust::system과 thrust::system::cuda을보고 정적 시스템 할당 자처럼 보이는 것을 찾지 못했습니다. 내 말은, 추력이 내부적으로 사용하는 할당자를 out-of-p

    1

    1답변

    이 짧은 cuda 코드에서 세그먼트 오류의 소스를 가져올 수 없습니다. 정렬 용 STL 라이브러리 대 Thrust 라이브러리의 정렬 속도를 테스트하는 데 사용하고 있습니다. 복소수 배열의 크기를 명령 줄 인수로 정렬하도록 전달하고 있습니다. 여기 코드 inline void check_cuda_error(char *message) { c

    2

    2답변

    나는 추력 라이브러리를 사용하여 CUDA에서 장치 배열의 접두어 합계를 계산하려고합니다. 내 배열은 cudaMalloc()으로 할당됩니다. 내 요구 사항은 다음과 같습니다 main() { Launch kernel 1 on data allocated through cudaMalloc() // This kernel will poplulate