icc

0열

1답변

곱셈 루프에서 암시 적 openMP 지시문을 사용하여 희소 행렬에 대한 간단한 행렬 벡터 승수를 CRS에 구현했습니다. 전체 코드는 GitHub의에 있습니다 https://github.com/torbjoernk/openMP-Examples/blob/icc_gcc_problem/matxvec_sparse/matxvec_sparse.cpp 참고 : 그것은 ;-

1열

1답변

템플릿을 통해 상속 된 클래스에서 typedef 된 정보를 추출하는 방법은 무엇입니까?

템플릿을 통해 상속받은 클래스에서 typedef'd 정보를 추출하는 것에 대한 질문이 있습니다. 내 질문을 설명하기 위해 다음 간단한 예제를 고려해보십시오. #include <iostream> class A1{ public: void print(){ printf("I am A1\n"); }; }; class A2{ public:

1열

1답변

메모리 바인딩 된 데이터에 대한 루프 언 롤링의 영향

집중적으로 메모리 바인딩 된 코드를 사용하여 작업했습니다. 캐시 블로킹, sw 프리 페치, 루프 언 롤링 등을 수동으로 구현하여 단일 코어 내에서 최적화하려고합니다. 캐시 블로킹이 성능을 크게 향상 시키지만. 그러나 루프 풀기를 도입 할 때 엄청난 성능 저하가 발생합니다. 필자는 모든 테스트 케이스에서 컴파일러 플래그 -O2 및 -ipo를 사용하여 Inte

0열

1답변

Intel SSE SIMD 내장 함수로 작업

Intel SSE intrinsics에 대한 다양한 산술 연산과 관련하여 질문이 있습니다. _mm_add_ps와 Vs.의 차이점은 무엇입니까? _mm_add_epi8/16/32? 내 데이터가 항상 정렬되도록하고 싶습니다. 샘플 코드에서 나는이 작업을 수행 할 때 __m128 u1 = _mm_load_ps(&V[(i-1)]); 나는 세그먼트 오류를 얻

3열

3답변

내가 (ICC에서 작동)

나는이 오래된 질문을하지만 대답은 온라인에서 나를 위해 작동하지 omp_get_num_threads 항상 GCC에 1을 반환있어, 코드는 다음과 같습니다 G ++ 4.4.5에서 #include "stdio.h" #include "omp.h" main() { omp_set_num_threads(4); //initialise thread cou

11열

5답변

16 바이트 메모리 정렬 된 데이터를 할당하는 방법

16 바이트 메모리를 정렬하려면 1D 배열이 필요한 코드 조각에 SSE 벡터화를 구현하려고합니다. 그러나, 나는 16byte 메모리 정렬 된 데이터를 할당하는 몇 가지 방법을 시도했지만 4byte 메모리가 정렬되게된다. Intel icc 컴파일러를 사용해야합니다. &A[0] = 0x11fe010 &A[1] = 0x11fe014 &A[2] = 0x11fe

6열

1답변

잘못된 메모리 정렬로 인해 SSE 내장 함수로 작업하는 동안 세그먼트 오류가 발생했습니다.

처음 SSE 내장 함수로 작업하고 있으며 16 바이트 메모리 정렬을 보장 한 후에도 세그먼트 화 오류가 발생합니다. 나는이 작업을 수행 할 때 float *V = (float*) memalign(16,dx*sizeof(float)); : How to allocate 16byte memory aligned data 이 내 배열을 선언하는 방법이다 :이 게

0열

1답변

나는 다음과 같은 코드가 오류 메시지

를 찾을 수 없음 오류의 첫 번째 줄은 호출되는 함수와 사용할 수있는 함수 정의 사이에 형식 불일치가 있음을 의미하며 오류 메시지의 다른 두 줄을 사용하여 문제의 범위를 좁히려 고합니다. 두 번째 줄과 세 번째 줄은 무엇을 의미합니까?

1열

1답변

SSE 내장 함수를 사용하여 2D 스텐실 벡터화

정렬,로드 및 저장 만 사용하여 2D 스텐실을 벡터화하려고합니다. 이를 위해 본질적으로 _mm_load_ps 및 _mm_shuffle_ps을 사용하여 원하는 주소를 얻으려고합니다. 코드의 내 스칼라 버전은 다음과 같습니다 void FDTD_base (float *V, float *U, int dx, int dy, float c0, float c1, floa

17열

4답변

간단한 TBB 예

누군가가 나에게 방법에 TBB 예를 줄 수 : 활성 스레드의 최대 수를 설정합니다. 은 서로 독립적이며 정적 함수가 아닌 클래스 형식으로 표시된 작업을 실행합니다.