neon

    1

    1답변

    내장 함수가 SIMD를 일반 매트릭스 곱셈보다 느리게 만드는 것은 무엇이며 SIMD를 사용하여 더 빠르게 대 매트릭스의 곱셈을 만들려면 어떻게해야하는지 궁금합니다. 여기에 matrixA[8][8], matrixB[8][8] 및 결과 matrixC[8][8]이 있습니다. float32_t의 최대 요소 수는 4이므로 2 개의 vmul 및 vadd를 수행 했으므

    0

    2답변

    ARM NEON 내장 함수 자체에는 다중 스레드, 다중 코어 및 다중 프로세스 환경에서 안전하게 작업 할 수있는 기술이 있습니까? 그렇다면이 문제가 언급 된 문서를 찾을 수 없으므로 인용 해주십시오. 아니요, NEON ARM이 스레드로부터 안전한지 확인하려면 어떻게해야합니까?

    2

    1답변

    다음과 같이 두 부동 소수점 피연산자를 비교 한 비교 결과가 있습니다. 즉 : 내가 비교 결과에 기초 할 필요하면 다음을 수행 할 필요가이 neon_gt_res = vcgtq_f32(temp1, temp2); if(neon_gt_res[0]) array[0] |= (unsigned char)0x01; if(neon_gt_res[1]) array[0] |

    -1

    2답변

    이 질문은이 one과 매우 유사합니다. 에 하는 ARMv7-A, I 다음 어셈블리 코드가 있습니다 vcmp.f64 d0, #0 vmrs APSR_nzcv, fpscr beq .jumpover 가 어떻게 armv8-A이 코드를 변환 할 수 있습니까? v0.16b에 0이 아닌 픽셀이 있는지 테스트하고 싶습니다. 편집 # 1 내가 좋아하는 뭔가에 대해 생

    -1

    1답변

    개별 파일 csc_rotation.S에 ARM NEON 함수를 작성하여 색상 공간 변환을 수행하고 순수한 어셈블리 파일을 iOS 앱 프로젝트에 추가하여 테스트 한 다음 Xcode에서 armv7 arch 아래의 코드. .text csc_rotation.S:3:1: Cannot use dot operator on a type ldr r4, [sp, #24

    -1

    3답변

    NEON 인라인 어셈블리에서 Signed int32를 Float로 변환하면 숫자가 달라집니다. 여기 플로트 서명 INT32의 출력이 인쇄된다 : 그것은 무작위 상이 (단지 짝수 번호). sint32로 저장하고 float로 저장하는 것 사이의 변환 (다른 연산 없음) 만 있습니다. 어떻게 피 하시겠습니까? 감사합니다

    2

    1답변

    AVX (ARM NEON에서 제공)를 처음 접했고 AVX에 많은 U8 산술이 부족하다는 사실에 놀라움을 금치 못했습니다. 는 그러므로 나는 인라인 함수와 max(a,b)-min(a,b)에 의지했다 : static inline __m256i _mm256_abd_epu8(__m256i a, __m256i b) { return _mm256_sub_ep

    0

    1답변

    aarch64의 새로운 ld4r 명령에 혼란 스럽습니다. 다음 코드 (V [20-23]으로 같은 4 개의 32 비트 값을로드는) ld1 { v20.4s }, [out1] mov v21.16b, v20.16b mov v22.16b, v20.16b mov v23.16b, v20.16b 하지만 케이 : ld1 { v20.4s }, [out1] ld1

    3

    1답변

    11 비트 정확도의 빠른 atan2 (float)를 가수로 구현하려고합니다. atan2 구현은 이미지 처리에 사용됩니다. 따라서 SIMD 명령어 (x86 (SSE2 사용) & ARM (vpfv4 NEON 사용))를 사용하여 구현하는 것이 더 나을 수 있습니다. 지금은 Chebyshev 다항식 근사법 (https://jp.mathworks.com/help/f

    0

    1답변

    팔 플랫폼 용 QtWebengine으로 Qt5.9.1을 빌드하려고합니다. 다음은 아키텍처에 전달하는 일부 아키텍처 기반 인수입니다. QMAKE_CFLAGS_RELEASE += -march=armv7-a -mcpu=cortex-a9 QMAKE_CXXFLAGS_RELEASE += -march=armv7-a -mcpu=cortex-a9 기본적으로 빌드가 이