sse4

    1

    1답변

    두 개의 배열이 있는데 내적을 얻고 싶습니다. vek 및 vec의 값을 xmm0 및 xmm1로 가져 오는 방법은 무엇입니까? 그리고 "printf"에 사용할 수 있도록 xmm1 (??)에 값을 표시하려면 어떻게해야합니까? @Mysticial 바르게 말한다 #include <stdio.h> main(){ float vek[4] = {4.0, 3.0, 2

    4

    1답변

    두 이미지의 점을 맞추기 위해 Visual C++ 2010의 OpenCV에서 BRIEF 설명자를 사용하고 있습니다. 는 "간단한 설명은 종종 특정을 제공하는 현대적인 CPU에서 매우 빠르게 수행 할 수 있습니다 해밍 거리를 사용하여 간단한-기술자에 대한 the paper에서 는 물건을 빠르게하는 것이 가능하다는 것을 기록 명령은 최신 SSE 명령어 세트의

    14

    2답변

    SSE 내장 함수로 작업 한 것은 이번이 처음입니다. 인텔 SSE 내장 (SSE4.2까지)을 사용하여 간단한 코드를 더 빠른 버전으로 변환하려고합니다. 나는 많은 오류가 발생하는 것 같습니다. 코드의 스칼라 버전은 다음과 같습니다 (단순 행렬 곱셈) void mm(int n, double *A, double *B, double *C) {

    0

    1답변

    char에서 SSE와 테이블을 비교하여 두 개의 문자열 char을 얻는 방법 C에서 4.2 intrinsics를? _mm_cmpistrm은 테이블 처리 결과를 비교하는 char에 의해 char에 대한 집계 함수 인 중요한 비트의 마스크를 반환합니다. __m128i _mm_cmpistrm ( __m128i a, __m128i b, c

    6

    1답변

    by Intel [pdf]에 설명 된 알고리즘에 따라 pixman에 빠른 x888 -> 565 픽셀 변환 기능을 구현하고 있습니다. 그들의 코드는 565로 변환하고 싶을 때 x888 -> 555로 변환합니다. 불행히도 565로 변환한다는 것은 높은 비트가 설정된다는 것을 의미합니다. 이는 부호가있는 채도 팩 명령어를 사용할 수 없음을 의미합니다. 부호없는

    0

    1답변

    C++로 코딩 된 문자열 일치 알고리즘에서 일부 SSE4.2 intruction을 사용하려고합니다. 작은 패턴과 일치시키기 위해이 지침을 사용하는 방법을 이해하지 못하고 누군가가 나를 도와 줄 수 있기를 바랍니다. 코드 예제에서 나는 포장 된 문자열 "antelope"내에서 패턴 "ant"를 찾으려고합니다. 나는 sse4.2 지침을 포함 nmmintrin.

    1

    1답변

    나는 tensorflow-gpu를 이미 설치했으며 정상적으로 작동합니다. 아래의 시스템 구성에서 AVX 및 SSE4.2-1.0 명령 세트를 이용하기 위해 소스에서 tensorflow-gpu를 설치하려고합니다. CPU : 듀얼 제온 E5 2,670 샌디 브릿지 EP/EX, 개정판 C2 지시 MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, S

    5

    1답변

    Intel Xeon Phi "Knights Landing"프로세서는 AVX-512를 지원하는 최초의 프로세서이지만 SSE2가없는 SSE 또는 AVX2가없는 AVX와 같은 "F"만 지원하므로 주로 부동 소수점 처리가 가능합니다. 저는 intrinsics를 통해 최대 SSE4.1 명령어를 사용하여 바이트 및 단어 (8 비트 및 16 비트)에서 작동하는 소프트웨