intrinsics

    2

    1답변

    제온 파이 (60 코어)에 대한 벤치 마크를 작성하고 싶습니다. 내 프로그램에서는 OpenMP 표준 및 인텔 내장 함수를 사용합니다. 스칼라 알고리즘보다 230 배 빠른 알고리즘의 병렬 버전 (5 점 스텐실 계산)을 구현했습니다. 병렬 코드에 SIMD를 추가하고 싶습니다. 성능에 문제가 있습니다. _m512_store_pd()를 호출하면 계산 성능이 떨어지

    2

    1답변

    Fortran 표준이 발전하고 새로운 내장 변수가 도입됨에 따라 컴파일러는 잠시 후이를 선택합니다. 한 예는 변수 C_PTRDIFF_T입니다. 는 이미 예를 들어, program test USE ISO_C_BINDING Integer, Parameter :: C_PTRDIFF_T = 12 end program 가 어떻게에서이 휴대 할

    0

    1답변

    SSE2 내장 함수에서 처음으로 다이빙을하고 있는데 어떻게해야할지 모르겠다. 4 개의 int32를 4 개의 다른 int32와 비교하여 얼마나 많은 수가 동일한 지 계산하고 싶습니다. 그래서 처음 4 개의 int32를 읽은 다음 __m128i로 설정하고 두 번째 세트에서 동일한 작업을 수행 한 다음 _mm_cmpeq_epi32를 사용하여 비교합니다. 이렇게하

    2

    2답변

    32 비트 RGBA 이미지 버퍼가 있습니다. 1920x1080이라고 가정 해 봅시다. 일반적으로 왼쪽에서 오른쪽, 위쪽에서 아래쪽까지 RAW 버퍼입니다. 는 여기에 내가 빨리 정말하고 싶은 내용은 다음과 같습니다이 하나의 소스 버퍼에서 두 개의 새로운 버퍼 ... 는 "FILL"버퍼 ... RGB 값이 원래 버퍼의 일치를 만들 수 있습니다. 알파 값이 불투

    0

    1답변

    우리는 다른 연산의 벡터 내장 라이브러리를 만들려고하고 있으며 그 중 하나는 숫자의 절대 값을 얻고 있습니다. 그러나 교수님은 double으로 제한했습니다. 저는 x86 내장 명령 집합에 상당히 익숙하기 때문에 누군가가 저를 계몽 할 수 있기를 바랍니다. 이 내가 지금까지 무엇을 가지고 : void vectorAbs(double *x, double *y,

    4

    1답변

    sse 내장 함수에 대한 내 이해를 테스트하기 위해 아래 코드를 만들었습니다. 코드가 올바르게 컴파일되고 실행되지만 sse를 사용한 개선은 그리 중요하지 않습니다. sse 내장 함수 사용은 약입니다. 20 % 빨라졌습니다. 속도가 대략 4 배 빨라지거나 400 % 향상되지 않아야합니까? 컴파일러가 스칼라 루프를 최적화하고 있습니까? 그렇다면이 기능을 어떻게

    0

    1답변

    일부 Intel CPU에는 bit 28 in register EDX from CPUID으로 읽을 수있는 하이퍼 스레딩 기능이 있습니다. AMD CPU에는 하이퍼 스레딩이 없지만 일부는 modules which have two integer units and one floating point unit입니다. CPU에 모듈이 있는지 감지하기위한 CPUID를 통

    0

    1답변

    인라인 어셈블리가 x64에서 지원되지 않습니다. 나는 집회에 익숙하지 않아서 나를 잘 돕는 누군가에게 나에게 도움을 청하고 싶다. 누구든지이 코드를 32 비트에서 64 비트로 변환 할 수 있습니까? MASM이나 컴파일러 내장 함수를 사용할 수 있지만이 코드를 변환하는 방법은 약간 혼란 스럽습니다. #define get_member_function_addre

    4

    2답변

    제목이 더 나은 이름이 없기 때문에 자신을 명확하게 설명 할 수 있을지 잘 모르겠습니다. 색인을 통해 "데이터 유형"에 액세스하는 방법을 찾고 있지만 컴파일러가 배열에 보관하도록 강제하지는 않습니다. 이 문제는 SSE/AVX 내장 함수를 기반으로 한 저수준 코드 작성시 발생합니다. vector1 및 vector2가 정의되어 있는지가 inline void l

    4

    2답변

    512 비트 AVX 레지스터에서 float로 수평 덧셈을 효율적으로 수행하는 방법 (단일 벡터의 항목을 함께 추가)? 128 및 256 비트 레지스터의 경우 _mm_hadd_ps 및 _mm256_hadd_ps를 사용하여 수행 할 수 있지만 _mm512_hadd_ps는 없습니다. 인텔 내장 설명서는 _mm512_reduce_add_ps 문서를 제공합니다. 실