intrinsics

1열

1답변

네온 내장 함수에는 1-way에서 4-way 디 인터리브를 수행하는 4 개의 내장 함수 (vld1 vld2 vld3 vld4)가 있습니다. 그러나 8 방향 디 인터리빙? 예를 들어, 데이터는 다음 uint8_t src[64] = {0,1,2,3,4,5,6,7,```63}; 로드 네온 레지스터에 데이터, 8 웨이 디 인터리브를 수행 한 후에 I는 다음과

2열

1답변

MSP430 용 GCC를 사용하는 비트 조작 내장 함수

MSP430 시리즈 마이크로 컨트롤러는 고속 비트 세트/비트 지우기 기계 명령어를 제공합니다. 이러한 비트 조작 컴 맨드는 글리치 또는 경쟁 조건을 방지하기 위해 부작용이 있거나 원자 접근이 필요한 일부 레지스터 또는 I/O 조작에 유용합니다. 그러나 MSP430 코어의 거의 모든 다른 특수 기능에 대한 많은 내장 함수 외에도 GCC는 비트 조작 명령에 i

2열

1답변

AVX 레지스터의 불법 콘텐츠

4 개의 배정도 값이있는 AVX 레지스터가 있습니다. 이제는 각 요소마다 개별적으로 연산을 수행해야합니다. 내가해야 할 일의 정리는 다음과 같다. Situation: a = [a4 a3 a2 a1] w = [ 0 0 0 w1] x = [ 0 0 0 x1] y = [ 0 0 0 y1] z = [ 0 0 0 z1]

2열

1답변

Solaris에서 _blsr_u64 용 헤더가 GCC로 제공됩니까?

여러 플랫폼에서 실행되는 코드가 있습니다. 코어 i7 5 세대와 같이 사용 가능한 코드는 BMI/BMI2 내장 함수를 사용합니다. 솔라리스 11.3에 Sun에서 제공하는 GCC는 __BMI__ 및 __BMI2__를 정의하지만, BMI/BMI2의 내장 함수의 위치는 데 문제가 : $ cat test.cxx #include <x86intrin.h> int

0열

1답변

인텔 내장 함수를 사용하는 동안 코드 속도가 향상되지 않습니다.

내장 함수를 사용하여 실행중인 openCV 코드를 가속화하고 있습니다. 하지만 코드를 Intrinsics로 대체 한 후 코드의 런타임 비용은 거의 동일하거나 더 나빠질 수 있습니다. 나는 무엇이 왜 일어나는지를 알 수 없다. 나는 꽤 오랫동안이 문제를 조사해 왔지만 변화를 주목했다. 누군가가 나를 도울 수 있으면 고맙게 생각합니다. 고마워요! 여기 //

1열

1답변

ARMv8-a에서 Aarch32 명령어 세트를 활성화하는 방법은 무엇입니까?

Raspberry Pi 3 uses a Broadcom SoC with and ARMv8 A53 core. 또한 Debian Jessie에 기반한 32 비트 OS를 사용합니다. ARM의 ARM NEON programming quick reference 3.2 절에 따르면, 명령을 설정 ARMv8-A AArch32 명령어 세트는 A32 (ARM 명령어 세트는

2열

1답변

vgetq_lane_u64 (x, 0) vget_low_u64 (x)

ARM 인 텐트에는 크기가 다른 스칼라를 추출하는 함수가 포함되어 있습니다. 기능은 ARM® C Language Extensions에서 가장 완전하게 설명되어 있습니다 : ET vgetQ_lane_ST(T vec, const int lane); 는 입력 벡터의 지정된 차선에서 값을 가져옵니다. 내장 함수는 입니다. 그리고 : T vget_high_ST(

0열

3답변

내장 함수에서 조건을 사용하는 방법

내장 함수를 사용하여 부동 소수점 변수 두 개를 비교하고 싶습니다. 비교가 사실이라면 다른 작업을 수행하십시오. 나는 정상적인 if..else 조건으로 이것을하고 싶다. intrinsics를 사용하는 방법이 있습니까? //normal code vector<float> v1, v2; for(int i = 0; i < v1.size(); ++i) if(v

1열

1답변

QueryPerformanceCounter()에서 사이클/바이트를 계산합니다.

여기에 표시된 PRIMATEs 암호의 비트 분할 구현을 작성했습니다 : (120 비트 버전으로 만들었습니다). 필자는 Intel Intrinsics를 C에서만 사용하고 AVX2 명령어 세트를 사용할 수 있도록했습니다. 구현을 약간 슬라이스했기 때문에 속도를 최적화하여 성능을 측정하고 싶었고 바이트 당 사이클을 계산했습니다. 이를 위해 Windows에서 제공

1열

1답변

ARM 네온하는 ARMv7 SIMD 명령어 다음 루프 네온 코드를 작성하는 방법을 비교

경우 : float sfx[64], delta = 9.9e-5; for(int i = 0; i < 64; i++) { if (sfx[i] < delta) { abq[i] = 1.0/delta; } else { abq[i] = 1.0/sfx[i]; } } 내가 vbslq_f32을 사용하려고하지만, 나는