avx512

5열

1답변

Will Knights 랜딩 CPU (Xeon Phi)가 바이트/워드 정수 코드를 가속합니까?

Intel Xeon Phi "Knights Landing"프로세서는 AVX-512를 지원하는 최초의 프로세서이지만 SSE2가없는 SSE 또는 AVX2가없는 AVX와 같은 "F"만 지원하므로 주로 부동 소수점 처리가 가능합니다. 저는 intrinsics를 통해 최대 SSE4.1 명령어를 사용하여 바이트 및 단어 (8 비트 및 16 비트)에서 작동하는 소프트웨

0열

1답변

AVX-512 마스크 시뮬레이션 지침

설명서에 따르면 AVX-512 명령어 세트의 gcc 4.9에서 지원되지만 gcc 4.8이 있습니다. 우리가있는 경우 네, 말, 문서를 통해보고, 이제 __mm128i sum = _mm_add_epi16(sum, _mm_cvtepu8_epi16(*(__m128i *) &mem)); : 저는 현재 메모리 블록 (가, 256 바이트로 보장 그래서 오버 플로우

3열

1답변

AVX512 반올림 모드는 어떻게 작동합니까 (또는 NDISASM은 혼동됩니까?)?

특정 AVX512F 명령을 이해하려고합니다. vcvtps2udq. 지침의 서명은 VCVTPS2UDQ zmm1 {k1}{z}, zmm2/m512/m32bcst{er}입니다. 매뉴얼 정보는 아래와 같습니다. 새로운 반올림 모드를 이해하기위한 시도 는, 다음과 같은 코드가 NASM (2.12.02) vcvtps2udq zmm0,zmm1 vcvtps2udq zm

1열

1답변

AVX512 cpu intrinics를 기반으로 unsigned char을 short로 변환하는 방법은 무엇입니까?

난 그냥 제온 파이 프로세서에서 AVX512의 CPU intrinic 세트를 읽고있다, 그러나 SSE의 방법을 변환 기존의 데이터 유형이 avx512에서 작동하지 않는 것 같다, 그래서 avx512 설정 유사한 CPU가 변환 할 수있는 것을 요청할 수 있습니다 unsigned char 배열을 short 데이터 형식 배열로 변환합니까? 미리 감사드립니다!

4열

2답변

__m512 (AVX512)로 수평 덧셈

512 비트 AVX 레지스터에서 float로 수평 덧셈을 효율적으로 수행하는 방법 (단일 벡터의 항목을 함께 추가)? 128 및 256 비트 레지스터의 경우 _mm_hadd_ps 및 _mm256_hadd_ps를 사용하여 수행 할 수 있지만 _mm512_hadd_ps는 없습니다. 인텔 내장 설명서는 _mm512_reduce_add_ps 문서를 제공합니다. 실

2열

1답변

은 SVML의 함수 호출을 오버라이드합니다.

Xeon-Phi Knights 랜딩 코어는 exp2 명령어 vexp2pd (내장형 _mm512_exp2a23_pd)을 가지고 있습니다. 인텔 C++ 컴파일러는 컴파일러와 함께 제공되는 SVML (Short Vector Math Library)을 사용하여 exp 함수를 벡터화 할 수 있습니다. 특히, fx __svml_exp8을 호출합니다. 그러나 디버거를

1열

1답변

AVX float4/double4 struct

float4/double4 구조체의 AVX-256/512 코드에서 기본 작동 *, +, /, -을 벡터 오버로드하여 벡터에서 빠른 성능 향상을 얻으려는 스칼라 등의 배율을 찾고 있습니다. float4/double4를 사용하여 작성된 코드에서의 연산. OpenCL은 이러한 데이터 유형을 intrinsics로 가지고 있지만 XeonPhi에서 실행되는 C++ 코

8열

2답변

3 진 논리 연산에 대한 진리표 감소, vpternlog

많은 논리 테이블 (7 개 이상)을 가지고 있으며 논리 공식을 단순화하는 도구 (예 : 논리 금요일 1)를 사용합니다. 나는 손으로 그것을 할 수 있었다. 그러나 그것은 너무 많이 범하는 경향이있다. 이 수식을 컴파일러 내장 함수 (예 : _mm_xor_epi32)로 변환하면 정상적으로 작동합니다. 질문 : vpternlog 나는 삼항 논리 연산을 만들 수

1열

1답변

AVX512로 컴파일하는 것에 대한 혼란

Intel Knights Landing에서 Intel C++ 컴파일러 및 AVX512 지원을 사용하여 C/C++ 코드를 컴파일하는 방법에 대한 this 문서를 읽습니다. 는 그러나, 나는이 부분에 대해 조금 혼란 스러워요 : -xMIC-AVX512 : AVX-512F, AVX-512CD, AVX-512ER와 AVX-512FP를 생성하기 위해이 옵션을 사용합

-1열

1답변

avx 느린 다음 sse 멀티미디어 확장

멀티미디어 확장과 병렬 처리 할 수있는 완벽한 프로그램을 프로그래밍하고 있습니다. 이 프로그램은 이미지를 변환하는 것으로 구성되어 있으므로 매트릭스로 가서 각 픽셀을 수정합니다. 이동 속도가 더 빠르면 멀티미디어 확장을 사용합니다. 처음에는 SSE3 확장을 사용하여 2.5 속도 향상을 얻었습니다. 다음으로 AVX 확장 (Double size vector)을