intrinsics

12열

1답변

의 _mm_mwait은 어떻게 작동합니까? (나는이 작업은 NUMA 시스템에서 촬영하는 방법이 아니라 그것을 위해 ASM하지만 행동과 을 의미한다. store 모니터링은 버스 스누핑과 버스 기반의 SMP 시스템에서 쉽게 구현할 수 있습니다.) 어떤 프로세서는 않습니다 그것을 구현? 일부 스핀 록에서 사용됩니까?

7열

6답변

x86 최대/분 asm 명령어?

Core i7 아키텍처에서 복소수/정수 벡터의 최소/최대 계산을 가속화 할 수있는 asm 명령어가 있습니까? 업데이트 : 나는 그런 풍부한 답변을 기대하지 않았다가, 감사합니다. 그래서 최대/최소 분기없이 할 수있는 참조하십시오. 하위 질문이 있습니다. 배열에서 가장 큰 double의 인덱스를 얻는 효율적인 방법이 있습니까?

0열

2답변

내 버전의 _bittestandset에 무엇이 잘못 되었습니까?

어셈블리 언어를 사용하고 있지 않습니다. gcc는 MSVC처럼 intrin.h에 _bittestandset 함수를 가지고 있지 않기 때문에 새로운 것을 구현했습니다. inline unsigned char _bittestandset(unsigned long * a, unsigned long b) { __asm__ ("bts %1, %[b]"

2열

3답변

VC++ SSE 본질 최적화 이상한

파일에서 8 비트 데이터를 흩어져 읽는 중입니다 (64 채널 웨이브 파일의 디 인터리빙). 그 다음에 이들을 하나의 바이트 스트림으로 결합합니다. 내가 겪고있는 문제는 데이터를 다시 작성하는 것입니다. 기본적으로 16 바이트로 읽은 다음 단일 __m128i 변수에 넣은 다음 _mm_stream_ps를 사용하여 값을 메모리에 다시 쓰게됩니다. 그러나 나는 이

2열

4답변

_never_executed()의 목적은 무엇입니까?

이 매크로는 전에 정의 된 적이 있지만 그 목적을 실제로 알지 못했습니다. 누구든지 이것에 대해 비추어 줄 수 있습니까?

6열

1답변

Intel AVX intrinsics : 호환성 라이브러리가 있습니까?

Intel AVX intrinsics 라이브러리가 있습니까? SSE2 정수 intrinsics 컴파일 타임에 사용할 수없는 경우 MMX intrinsics fall-backs 'sse2mmx.h'머리글 비슷한 찾고 있어요. 따라서 AVX 용 라이브러리가 비슷한 경우 AVX 확장을 사용할 수없는 경우 거의 최적의 속도를 갖는 새로운 하드웨어에 최적화 된 코드

1열

3답변

인라인 함수를 참조하여 __m128i 객체를 전달하면 이러한 객체가 스택으로 이동됩니까?

SSE2 내장 함수가있는 8x16 비트 벡터에 대한 전치 함수를 쓰고 있습니다. 그 함수 (8x8x16bit 크기의 행렬)에 대한 8 가지 인수가 있기 때문에 참조로 전달할 수는 없습니다. 컴파일러에 의해 최적화 될 것인가 (이 __m128i 객체는 스택 대신 레지스터로 전달 될 것인가)? 코드 스 니펫 : inline void transpose (__m1

22열

1답변

Linux의 InterlockedIncrement와 동일/gcc

매우 간단한 질문입니다 (중복 될 수는 있지만). 찾지 못했습니다. Win32 API는 InterlockedIncrement과 같은 매우 유용한 일련의 원자 연산 (x86 형식 코드로 lock add)을 제공합니다. 또한 InterlockedCompareExchange은 lock cmpxchg에 매핑됩니다. 하지만 Linux에서 gcc를 사용하여 작업하고

0열

4답변

C# fast crc32 계산 :

Ant를 사용하여 응용 프로그램을 프로파일 링 한 결과 10 % 이상이 CRC32 계산에 있음을 알았습니다. 합니다 (CRC32-계산은 일반 C#으로 이루어집니다) 나는 약간의 인터넷 검색을했고, 2008 Visual Studio에서 다음과 같은 내장 함수에 대해 배웠 : _mm_crc32_u8 _mm_crc32_u16 _mm_crc32_u32 _mm_cr