avx512

    5

    1답변

    Intel Xeon Phi "Knights Landing"프로세서는 AVX-512를 지원하는 최초의 프로세서이지만 SSE2가없는 SSE 또는 AVX2가없는 AVX와 같은 "F"만 지원하므로 주로 부동 소수점 처리가 가능합니다. 저는 intrinsics를 통해 최대 SSE4.1 명령어를 사용하여 바이트 및 단어 (8 비트 및 16 비트)에서 작동하는 소프트웨

    0

    1답변

    설명서에 따르면 AVX-512 명령어 세트의 gcc 4.9에서 지원되지만 gcc 4.8이 있습니다. 우리가있는 경우 네, 말, 문서를 통해보고, 이제 __mm128i sum = _mm_add_epi16(sum, _mm_cvtepu8_epi16(*(__m128i *) &mem)); : 저는 현재 메모리 블록 (가, 256 바이트로 보장 그래서 오버 플로우

    3

    1답변

    특정 AVX512F 명령을 이해하려고합니다. vcvtps2udq. 지침의 서명은 VCVTPS2UDQ zmm1 {k1}{z}, zmm2/m512/m32bcst{er}입니다. 매뉴얼 정보는 아래와 같습니다. 새로운 반올림 모드를 이해하기위한 시도 는, 다음과 같은 코드가 NASM (2.12.02) vcvtps2udq zmm0,zmm1 vcvtps2udq zm

    1

    1답변

    난 그냥 제온 파이 프로세서에서 AVX512의 CPU intrinic 세트를 읽고있다, 그러나 SSE의 방법을 변환 기존의 데이터 유형이 avx512에서 작동하지 않는 것 같다, 그래서 avx512 설정 유사한 CPU가 변환 할 수있는 것을 요청할 수 있습니다 unsigned char 배열을 short 데이터 형식 배열로 변환합니까? 미리 감사드립니다!

    4

    2답변

    512 비트 AVX 레지스터에서 float로 수평 덧셈을 효율적으로 수행하는 방법 (단일 벡터의 항목을 함께 추가)? 128 및 256 비트 레지스터의 경우 _mm_hadd_ps 및 _mm256_hadd_ps를 사용하여 수행 할 수 있지만 _mm512_hadd_ps는 없습니다. 인텔 내장 설명서는 _mm512_reduce_add_ps 문서를 제공합니다. 실

    2

    1답변

    Xeon-Phi Knights 랜딩 코어는 exp2 명령어 vexp2pd (내장형 _mm512_exp2a23_pd)을 가지고 있습니다. 인텔 C++ 컴파일러는 컴파일러와 함께 제공되는 SVML (Short Vector Math Library)을 사용하여 exp 함수를 벡터화 할 수 있습니다. 특히, fx __svml_exp8을 호출합니다. 그러나 디버거를

    1

    1답변

    float4/double4 구조체의 AVX-256/512 코드에서 기본 작동 *, +, /, -을 벡터 오버로드하여 벡터에서 빠른 성능 향상을 얻으려는 스칼라 등의 배율을 찾고 있습니다. float4/double4를 사용하여 작성된 코드에서의 연산. OpenCL은 이러한 데이터 유형을 intrinsics로 가지고 있지만 XeonPhi에서 실행되는 C++ 코

    8

    2답변

    많은 논리 테이블 (7 개 이상)을 가지고 있으며 논리 공식을 단순화하는 도구 (예 : 논리 금요일 1)를 사용합니다. 나는 손으로 그것을 할 수 있었다. 그러나 그것은 너무 많이 범하는 경향이있다. 이 수식을 컴파일러 내장 함수 (예 : _mm_xor_epi32)로 변환하면 정상적으로 작동합니다. 질문 : vpternlog 나는 삼항 논리 연산을 만들 수

    1

    1답변

    Intel Knights Landing에서 Intel C++ 컴파일러 및 AVX512 지원을 사용하여 C/C++ 코드를 컴파일하는 방법에 대한 this 문서를 읽습니다. 는 그러나, 나는이 부분에 대해 조금 혼란 스러워요 : -xMIC-AVX512 : AVX-512F, AVX-512CD, AVX-512ER와 AVX-512FP를 생성하기 위해이 옵션을 사용합

    -1

    1답변

    멀티미디어 확장과 병렬 처리 할 수있는 완벽한 프로그램을 프로그래밍하고 있습니다. 이 프로그램은 이미지를 변환하는 것으로 구성되어 있으므로 매트릭스로 가서 각 픽셀을 수정합니다. 이동 속도가 더 빠르면 멀티미디어 확장을 사용합니다. 처음에는 SSE3 확장을 사용하여 2.5 속도 향상을 얻었습니다. 다음으로 AVX 확장 (Double size vector)을