intrinsics

1열

1답변

ARM 네온에 조건부 스토어를 생성하는 방법을 알아 내려고하고 있습니다. 내가하고자하는 것은이 SSE 교육과 동등합니다 : 무효 _mm_maskmoveu_si128 (__m128i d, __m128i n, char * p); 조건부로 d의 바이트 요소를 주소 p에 저장합니다. 선택기 n의 각 바이트의 상위 비트는 d의 해당 바이트가 저장 될지 여부를 결정합

1열

1답변

SSE1 divps intrinsic xmmintrin.h를 사용하여 4 개의 32 비트 부동 소수점을 나누고 printf를 사용 하시겠습니까?

예를 들어 4 개의 숫자를 나누어서 인쇄하는 데 도움이 필요합니다. 나는 g ++을 제 컴파일러로 사용하고 있습니다. 다음 코드는 -msse3 -mmmx 플래그로 컴파일되지만, 필자가 필요로하는 것은 확실하지 않지만 작동한다. 나는 set을 나누기 전에 함수 호출로 숫자를 알아야한다고 생각하지만, 어떤 함수를 호출 할 지에 대해서는 긍정적이지 않다. (나는

2열

1답변

mmintrin.h 또는 emmintrin.h에서 SSE 비교 명령어를 찾을 수 없습니까?

보다 큼,보다 작거나 같음에 대한 명령어가 이러한 함수와 함께 호출됨을 발견했습니다. emmintrin _mm_cmpeq_epi8 (__m128i __A, __m128i __B) _mm_cmplt_epi8 (__m128i __A, __m128i __B) _mm_cmpgt_epi8 (__m128i __A, __m128i __B) mmintrin

8열

1답변

NEON 내장 유형이 C에서 작동하지만 C++에서 잘못된 인수를 throw했습니다.

Android NDK에서 NEON 내장 함수 및 인라인 어셈블리를 사용하는 데 문제가 있습니다. : C. 예를 들어 로 컴파일하는 경우 GCC 4.6 및 4.8 C++ 코드를 컴파일 할 때 float32x4_t 같은 NEON 유형은 "잘못된 인수"오류를 제공하지만, 코드가 잘 컴파일, 여기에 몇 가지 코드입니다 함수 자체에서 : Invalid argumen

0열

2답변

AVX 유형의 C++ 내장 함수에 대한 참조 및 온라인 리소스

intrinsics에 대한 정보를 다루는 사이트로 안내 할 수 있습니까? 많은 사이트를 검색했지만 이름 만 나열하고 있습니다. 검색된 어셈블리 사이트는 있지만 조립 지침 만 있습니다 (이름은 비슷하지만 정확한 것은 아님). 내가 필요한 것은 다음과 같습니다. GCC(g++) Intrinsics for x64 ║ ║ ╚═

3열

2답변

RenderScript 내장 함수 가우시안 블러

어떻게 RenderScript 내장 함수를 올바르게 사용합니까? //Assuming my original Bitmap is "bm" Bitmap outputBitmap = Bitmap.createBitmap(bm.getHeight(), bm.getWidth(), Config.ARGB_8888); RenderScript rs = RenderScript

2열

1답변

로드 벡터 NEON의 내장 함수

: 나는이 포인터를 가지고 : int8x16_t* p1=(int8x16_t*)srcimg.data; int8x16_t* p2=(int8x16_t*)(srcimg.data+srcimg.cols); 문제는로드 기능이 하나라는 것이다 : int8x16_t vld1q_s8(__transfersize(16) int8_t const * ptr); 함수가 in

1열

1답변

SSE에서 ARM Neon으로 명령어 변환

최적화를 위해 SSE에서 ARM Neon으로 코드를 변환하려고합니다. 코드의 SSE 명령어의 대부분은 네온과 비슷한 명확한 것을 발견했습니다. 그래도 이러한 문제가 발생했습니다. result1_shifted = _mm_srli_si128 (result1, 1); result=_mm_packus_epi16 (res1,res2); _mm_storeu_s

0열

1답변

32B 청크, 연속 및 비 연속 메모리 액세스

큰 매트릭스 (8192x8192)에 내장 함수를 사용하여 C++에서 행렬 - 행렬 (32 비트 부동) 곱셈 함수를 작성했습니다. 최소 데이터 크기는 모든 읽기 및 쓰기 작업에 대해 32B입니다. 알고리즘을 8x8 블록을 8 개의 YMM 레지스터로 읽고 목표 블록 행 (다른 YMM 레지스터를 대상으로 함)에서 곱셈을 수행하여 최종적으로 8 개의 결과를 다른

1열

1답변

intrinsic을 사용할 때 정의되지 않은 참조

xeon의 SIMD 내장 함수를 테스트하려고합니다. 그래서 다음 코드 작성 : 컴파일 할 때 #pragma offload target(mic) in(a:length(N)) #pragma omp parallel for for(int i=0;i<16;++i){ __m512i p ; p = _mm512_loadunpackhi_epi64(p,