neon

    1

    1답변

    나는 테이블에서 일부 값을로드하고 벡터로를 설정할 : 첫 번째 경우에에 벡터의 네 값을 설정 float32x4_t dest = vdupq_n_f32(a); intrinsics 매뉴얼을 읽을 때 매우 분명했습니다. 두 번째 경우에는 벡터의 4 개 값을 테이블과 다른 값으로 설정하십시오. 그에 대한 지시가 없기 때문에이 조금 까다로운, 그래서 나는 다음과

    0

    1답변

    NEON 내장 함수를 사용하는 C++ 코드가 있습니다. 내가 읽은 것으로부터, 당신이해야 할 일은 프로젝트에 arm_neon.h를 포함시키는 것입니다. 그리고 나서이 arm_neon.h 헤더가 실제로 자동으로 사용 가능하지는 않다는 것을 알았습니다. 웹에서 가져와야합니다. 그래서 내가 발견하고 내 프로젝트에이 버전을 추가 : 내가 추가 내 프로젝트의 pre

    0

    1답변

    나는 그러나 내가 UMLAL의 SIMD/벡터 상당을 찾을 수 없습니다 최적화를 시도 코드 조각이? 감사합니다.

    1

    1답변

    네온 내장 함수에는 1-way에서 4-way 디 인터리브를 수행하는 4 개의 내장 함수 (vld1 vld2 vld3 vld4)가 있습니다. 그러나 8 방향 디 인터리빙? 예를 들어, 데이터는 다음 uint8_t src[64] = {0,1,2,3,4,5,6,7,```63}; 로드 네온 레지스터에 데이터, 8 웨이 디 인터리브를 수행 한 후에 I는 다음과

    2

    1답변

    2 줄 미만의 코드에서는 정확히 무엇이 발생합니까? 나를 위해 그것을 명확하게하지 않는 ARM InfoCenter : vst1.64 {d8, d9, d10, d11}, [r4:128]! vst1.64 {d12, d13, d14, d15}, [r4:128] 는 더 일반적으로, 나는에서 문서부터 무엇을 VST & VLD 알고 싶어요.

    0

    1답변

    네온 인라인은 레지스터 할당을 컴파일러에 맡겨서 신경 쓰지 않아도됩니다. 그러나 멀티 코어 프로세서 (내 프로세서는 zynq이고 두 개의 암 - 대뇌 피질 -A9 코어, 두 개의 네온 유닛이 있습니다) 컴파일러는 모든 네온 장치를 효율적으로 사용하는 방법을 알고 있습니까? 아니면 컴파일러가 모든 네온 장치를 사용할 수 있도록해야합니까? 멀티 코어 프로세서에

    0

    1답변

    는 I 이전 네온 플래그 컴파일 아암 바이너리 분해 : 텍스 A9 -mfpu = 네온 -mfloat-ABI = softfp -ftree-벡터화 덤프 생성 vdiv.f64 지시를 나타내고 = -mcpu 컴파일러에 의해. armv7 (cortex-a9)의 암 설명서에 따르면 네온 simd isa는 vdiv 명령을 지원하지 않지만 부동 소수점 (vfp) 엔진은

    1

    2답변

    네온 64 비트 벡터 레인을 n 번째 위치로 변환하려고합니다. 0이 아닌 (일명 0xFF) 8 비트 값을 가져온 다음 나머지 벡터에 0을 채 웁니다. 다음은 몇 가지 예입니다. 0 1 2 3 4 5 6 7 d0: 00 FF 00 FF 00 00 00 FF d1: 1 3 7 0 0 0 0 0 d0: 00 FF FF FF 00 00 FF 00 d1:

    2

    1답변

    ARM 인 텐트에는 크기가 다른 스칼라를 추출하는 함수가 포함되어 있습니다. 기능은 ARM® C Language Extensions에서 가장 완전하게 설명되어 있습니다 : ET vgetQ_lane_ST(T vec, const int lane); 는 입력 벡터의 지정된 차선에서 값을 가져옵니다. 내장 함수는 입니다. 그리고 : T vget_high_ST(

    0

    1답변

    Im ARM 및 NEON 프로그래밍에 상당히 새로운 점은 SAD (Sum of Absolute Difference) 기능을 최적화하는 작업이 주어 졌기 때문입니다. 어디에서 시작해야할지 모르겠다. 성공하지 않고 NEON 코드를 생성하는 몇 가지 방법을 시도했다. void sad_block_8x8(uint8_t *block1, uint8_t *block2,