thrust

1열

1답변

내가 CUDA 추력을 사용하여 파일 내에서 보고서 실행의 발생을 생산하는 "실행 길이 인코더를"구축을 위해 노력하고 실행 길이 인코딩. 이 "보고서"를 사용하여 나중에 런타임 길이 인코딩 단계를 수행합니다. 입력 서열 inputSequence = [a, a, b, c, a, a, a]; 의 출력 시퀀스 : runChar = [a, a]; runCoun

0열

1답변

스러스트 쿠다의 배열을 계산하기보다 빠르게

I 네 개의 어레이를 가지고 인접 배열. 배열 정도는 정점의 각 정점의 차수를 저장합니다. 나는 degree_summation 배열이 각 꼭지점의 정도와 각 꼭지점 이웃의 정도의 합계를 더하고 싶습니다. 난이 값을 계산하는 for 루프를 사용하고, 현재 degree_summation = {6,6,6} 을,하지만 난 아마도 추력에 의해 주어진 프리미티브를

0열

1답변

배열에서 max 요소를 찾기 위해 cuda thrust :: max_element를 사용하면 가끔씩 오류가 발생합니다.

장치에 2^20 요소 배열이 채워져 있습니다. 이 수는 매번 같아야합니다. 그런 다음 배열을 호스트로 옮긴 다음 배열의 최대 요소를 검색합니다.이 기술은 2^10 요소 배열과 함께 작동하지만 일단 그보다 더 커지면 무작위 응답을 얻기 시작합니다. 엉망이되거나 장치 계산이 엉망입니다. 대답의 max_element가 반환해야 는 일반적으로 출력 정답은 다음 대

2열

1답변

추력에 대한 호출 후 CUDA 커널이 시작되면 동기식 또는 비동기식입니까?

계산 결과에 문제가 있습니다. 이유가 무엇인지에 대한 설명이 정확하지 않아 코드를 확인한 결과 올바른 것으로 보입니다 (다시 확인하겠습니다). 제 질문은 추력에 대한 호출 후에 실행 된 후 사용자 정의 쿠다 커널이 동기식 또는 비동기식인지 여부입니다. thrust::sort_by_key(args); arrangeData<<<blocks,threads>>>

-1열

1답변

추력 작동 빈 호스트 배열

나는 추력 동작을하고 싶지만 정확히 어떻게 해야할지 잘 모릅니다. 지금 , 나는 제로의 전체 오전 배열합니다 (h_a 배열) 를 수신하고 내가 가진 :이 #include <cstdio> #include <cstdlib> #include <cmath> #include <iostream> #include <cuda.h> #include <cuda_r

1열

1답변

빼기를위한 적절한 추력 호출

here 다음과 같습니다. dev_X가 벡터라고 가정합니다. int * X = (int*) malloc(ThreadsPerBlockX * BlocksPerGridX * sizeof(*X)); for (int i = 0; i < ThreadsPerBlockX * BlocksPerGridX; i++) X[ i ] = i; // create d

0열

1답변

CUDA 메모리에서 추력을 호출 할 수 없습니다.

추력 라이브러리를 사용하여 배열의 합계 (이미 CUDA 메모리에 있음)를 찾으려고합니다. 여기에 몇 가지 대답이 thrust :: device_ptr을 사용하여 줄 바꿈으로써 가능하지만 그것은 나를 위해 오류를 던지고있다. 초기 코드 cudaMemcpy((void *)(data + stride), (void *)d_output, sizeof(unsigned

8열

1답변

효율성

내가 CUDA 예에서 particles_kernel.cu에서 integrate_functor을 이해하려고 노력 해요 : struct integrate_functor { float deltaTime; //constructor for functor //... template <typename Tuple> __d

0열

1답변

CUDA에서 device_ptr로부터 reverse_iterator 가져 오기

device_vector의 경우 역순 반복기를 얻기 위해 rbegin() 메서드를 사용할 수 있습니다. 하지만 reverse_iterator를 device_ptr에서 직접 생성하는 방법은 무엇입니까? thrust::device_ptr<int> ptr = get_ptr(); thrust::device_vector<int> tmpVector(ptr , ptr

1열

1답변

CUB 및 추력을 하나의 CUDA 코드로 사용하는 방법

내 "기존"추력 코드에 CUB를 소개하려고합니다. 따라서 작은 예제로 시작하여 cub::DeviceReduce::ReduceByKey과 thrust::device_vectors에 모두 적용되는 thrust::reduce_by_key을 비교해보십시오. 코드의 추력 부분은 괜찮지 만, thrust :: raw_pointer_cast를 통해 얻은 원시 포인터를