sse

1열

1답변

성능이 중요한 C++ 함수에서 일부 값을 처리하기 위해 SSE 내장 함수를 사용하려고합니다. 이 함수는 정수 템플릿 인수 N을 가지며 1에서 4까지의 값을 가질 수 있으며 필요한 XMM 레지스터의 수를 제공합니다. 이 함수는 네 번 쓸 수 있으며 문제를 해결할 수 있습니다. 그러나 함수는 꽤 크고 코드 중복을 피함으로써 관리가 잘되고 싶습니다. 내가 필요한

1열

1답변

은 char *에 대해 _mm_loadu_ps에 해당합니다.

내가 뭘하려고하는지 4 개의 char 값을로드하고 4 개의 부동 소수점 벡터에 추가하는 것입니다. 이 일의 오른쪽 & 최적화 방법은 무엇 // char b[1024] is defined somewhere else __declspec(align(16)) float d[3]; __declspec(align(16)) float a[4]; __declspec

0열

1답변

__m128i에 포함 된 4 개의 int32_t를 사용할 수 있습니까?

I는 을 __m128i 변수가이 같은 특정 작업을 수행하고자 : A, B, C, D는 제이다 (또는 동작) 변수 int32_t 및 최초로 unsigned char* myArray; __m128i fourValues; //Do some strange reference assignment, e.g.: //int32_t& a = *((int32_t*) &

0열

1답변

SSE4 _mm_cmpistrm 문자열에서 문자 찾기 (전체 코드 예제)

_mm_cmpistrm에서 _m128i 비트 마스크를 반환하려고합니다. 128 비트 소스의 어떤 바이트에 공백이 있는지 나타냅니다. 그러나 첫 번째와 세 번째 바이트를 공백으로 설정하면 결과가 {255,255,0,0,0,0,0,0 ....}가 아닌 {255,0,255 , 0,0,0, ...} .... 누군가가 도와 줄 수 있습니까? #include <std

2열

1답변

gcc 또는 Core2 칩의 다른 플래그에서 "-march = native"로 설정된 SSE 명령어를 활성화 할 수 없습니다.

내 컴퓨터가 Core2 마이크로 아키텍처이고 SSE 명령어 세트를 대상으로하는 산술 코드를 컴파일하려고했습니다. 웹 및 공식 매뉴얼에서 검색 한 결과, 내 칩이 SSE를 지원하므로 플래그 -march=native을 추가해야한다고 생각합니다. 그러나 플래그가 실제로 작동하는지 확인하려면 gcc -march=native -Q --help=target -v을 사

2열

1답변

MM 및 YMM 기술을 통합하는 성능상의 불이익이 있습니까?

SSE와 AVX 사이를 전환하지 않아야합니다. 나는 MMs가 다른 기술이라고 생각하지만, 물어야했다. 다음 코드는 처벌을 선도? vmovq XMM0, RAX pinsrw MM0, EDX, 1 vmovd XMM5, EBX movdq2q MM1, XMM2

3열

3답변

SSE/SSE2는 비주얼 스튜디오 컴파일러에 의해 사용 여부

가 어떻게 코드를 확인할 수 있습니다 Visual Studio에서 설정 SSE/SSE2 명령의 가용성을 감지? 나는 #ifdef __SSE__을 시도했지만 작동하지 않았다. the documentation에서

0열

1답변

C++에서 SSE 코드를 AVX로 변환

당신의 도움을 받아 현저한 성능 향상과 함께 내 코드 (아래 샘플)에 SSE를 사용했으며 AVX의 256 비트 레지스터를 사용하여이 향상된 기능을 향상시킬 수 있는지 궁금합니다. int result[4] __attribute__((aligned(16))) = {0}; __m128i vresult = _mm_set1_epi32(0); __m128i v1,

0열

1답변

xmm으로 쿼드 워드 이동

숫자가있는 64 비트 레지스터를 xmm 레지스터로 이동하는 데 사용할 코드를 알고 싶습니다. 내 생각이었다 `movsd xmm1, [r14]` 그러나 나는 segmentation fault: 11가 계속. Mac OS-X에서 NASM x86을 사용하고 있습니다. 누군가 도와주세요.

3열

2답변

평균 작동 ARM의 NEON

나는 SSE와 동일한 동작을 계산하기 위해 필요 : NEON으로 __m128i result1=_mm_avg_epu8 (upper, lower); 나는 다음을 수행하십시오 uint8x16_t result1=vhaddq_u8(upper, lower); 결과는 동일해야하지만, SSE와 명령 I을 얻었다 :가 91cb c895 aaa3 b0d4 cfc0 c