intrinsics

2열

1답변

제온 파이 (60 코어)에 대한 벤치 마크를 작성하고 싶습니다. 내 프로그램에서는 OpenMP 표준 및 인텔 내장 함수를 사용합니다. 스칼라 알고리즘보다 230 배 빠른 알고리즘의 병렬 버전 (5 점 스텐실 계산)을 구현했습니다. 병렬 코드에 SIMD를 추가하고 싶습니다. 성능에 문제가 있습니다. _m512_store_pd()를 호출하면 계산 성능이 떨어지

2열

1답변

내장 변수가 정의되어 있는지 확인

Fortran 표준이 발전하고 새로운 내장 변수가 도입됨에 따라 컴파일러는 잠시 후이를 선택합니다. 한 예는 변수 C_PTRDIFF_T입니다. 는 이미 예를 들어, program test USE ISO_C_BINDING Integer, Parameter :: C_PTRDIFF_T = 12 end program 가 어떻게에서이 휴대 할

0열

1답변

SSE2 intrinsics - 2 개의 __m128i를 비교하여 4 개의 int32를 포함하여 각각 몇 개가 같은지 알아보기

SSE2 내장 함수에서 처음으로 다이빙을하고 있는데 어떻게해야할지 모르겠다. 4 개의 int32를 4 개의 다른 int32와 비교하여 얼마나 많은 수가 동일한 지 계산하고 싶습니다. 그래서 처음 4 개의 int32를 읽은 다음 __m128i로 설정하고 두 번째 세트에서 동일한 작업을 수행 한 다음 _mm_cmpeq_epi32를 사용하여 비교합니다. 이렇게하

2열

2답변

인텔 내장 함수는 32 비트 알파 채널을 swizzling하는 데 필요합니다.

32 비트 RGBA 이미지 버퍼가 있습니다. 1920x1080이라고 가정 해 봅시다. 일반적으로 왼쪽에서 오른쪽, 위쪽에서 아래쪽까지 RAW 버퍼입니다. 는 여기에 내가 빨리 정말하고 싶은 내용은 다음과 같습니다이 하나의 소스 버퍼에서 두 개의 새로운 버퍼 ... 는 "FILL"버퍼 ... RGB 값이 원래 버퍼의 일치를 만들 수 있습니다. 알파 값이 불투

0열

1답변

내장 함수를 사용하여 double에 절대 값을 어떻게 수행합니까?

우리는 다른 연산의 벡터 내장 라이브러리를 만들려고하고 있으며 그 중 하나는 숫자의 절대 값을 얻고 있습니다. 그러나 교수님은 double으로 제한했습니다. 저는 x86 내장 명령 집합에 상당히 익숙하기 때문에 누군가가 저를 계몽 할 수 있기를 바랍니다. 이 내가 지금까지 무엇을 가지고 : void vectorAbs(double *x, double *y,

4열

1답변

배열 곱셈과 sse intrinsics 곱셈의 타이밍?

sse 내장 함수에 대한 내 이해를 테스트하기 위해 아래 코드를 만들었습니다. 코드가 올바르게 컴파일되고 실행되지만 sse를 사용한 개선은 그리 중요하지 않습니다. sse 내장 함수 사용은 약입니다. 20 % 빨라졌습니다. 속도가 대략 4 배 빨라지거나 400 % 향상되지 않아야합니까? 컴파일러가 스칼라 루프를 최적화하고 있습니까? 그렇다면이 기능을 어떻게

0열

1답변

AMD CPU에 모듈이 있는지 감지하십시오.

일부 Intel CPU에는 bit 28 in register EDX from CPUID으로 읽을 수있는 하이퍼 스레딩 기능이 있습니다. AMD CPU에는 하이퍼 스레딩이 없지만 일부는 modules which have two integer units and one floating point unit입니다. CPU에 모듈이 있는지 감지하기위한 CPUID를 통

0열

1답변

32 비트 ASM을 64 비트로 변환하십시오.

인라인 어셈블리가 x64에서 지원되지 않습니다. 나는 집회에 익숙하지 않아서 나를 잘 돕는 누군가에게 나에게 도움을 청하고 싶다. 누구든지이 코드를 32 비트에서 64 비트로 변환 할 수 있습니까? MASM이나 컴파일러 내장 함수를 사용할 수 있지만이 코드를 변환하는 방법은 약간 혼란 스럽습니다. #define get_member_function_addre

4열

2답변

임시/"주소 지정 불가능"고정 크기 배열?

제목이 더 나은 이름이 없기 때문에 자신을 명확하게 설명 할 수 있을지 잘 모르겠습니다. 색인을 통해 "데이터 유형"에 액세스하는 방법을 찾고 있지만 컴파일러가 배열에 보관하도록 강제하지는 않습니다. 이 문제는 SSE/AVX 내장 함수를 기반으로 한 저수준 코드 작성시 발생합니다. vector1 및 vector2가 정의되어 있는지가 inline void l

4열

2답변

__m512 (AVX512)로 수평 덧셈

512 비트 AVX 레지스터에서 float로 수평 덧셈을 효율적으로 수행하는 방법 (단일 벡터의 항목을 함께 추가)? 128 및 256 비트 레지스터의 경우 _mm_hadd_ps 및 _mm256_hadd_ps를 사용하여 수행 할 수 있지만 _mm512_hadd_ps는 없습니다. 인텔 내장 설명서는 _mm512_reduce_add_ps 문서를 제공합니다. 실