intrinsics

    1

    1답변

    네온에 64 비트 d 레지스터가 있다고 가정합니다. ABCDEFGH 값을 저장한다고 말할 수 있습니다. 이제 I는 O가 & E를 추가하려면, B & F, C & G, D 등 & H 및 .. 가능하다 의한 극한 여기되는 그래서 이러한 동작 I는 문서 보았지만 적합한 것을 찾지 못했습니다.

    0

    1답변

    SSE2 지침을 사용하여 최적화 된 코드를 만들려고합니다. 현재, 내가 같이, 그것은 인라인 어셈블리로 작성이 : 내가 계산의 약간 다른 버전이 ( ... __m128 zero = {0}; __asm { ... LINE_LOOP_1: MOVQ xmm0, QWORD PTR [eax] ; no problem PUNPCKLBW

    5

    2답변

    MS Visual Studio에서 SSE2 명령 세트로 작업하고 있습니다. 나는 그것을 16 비트 데이터로 계산할 때 사용하고있다. SSE 레지스터에로드 된 8 개의 값이 있다고 가정합니다. 모든 항목에 상수 (예 : 42)를 추가하고 싶습니다. 다음은 내 코드를 어떻게 보이게할까요? __m128i values; // 8 values, 16 bits eac

    0

    1답변

    char에서 SSE와 테이블을 비교하여 두 개의 문자열 char을 얻는 방법 C에서 4.2 intrinsics를? _mm_cmpistrm은 테이블 처리 결과를 비교하는 char에 의해 char에 대한 집계 함수 인 중요한 비트의 마스크를 반환합니다. __m128i _mm_cmpistrm ( __m128i a, __m128i b, c

    23

    3답변

    많은 SSE 컴파일러 내장 함수를 사용하여 3D 벡터 클래스를 작성했습니다. 3D 벡터를 가진 클래스를 새 클래스로 instathiate하기 시작할 때까지 모든 것이 잘 작동했습니다. 릴리스 모드에서는 이상한 크래시를 경험했지만 디버그 모드에서는 그렇지 않습니다. 그래서 몇 가지 기사를 읽고 3D 벡터 클래스의 인스턴스를 소유하는 클래스를 16 바이트로 정

    6

    1답변

    by Intel [pdf]에 설명 된 알고리즘에 따라 pixman에 빠른 x888 -> 565 픽셀 변환 기능을 구현하고 있습니다. 그들의 코드는 565로 변환하고 싶을 때 x888 -> 555로 변환합니다. 불행히도 565로 변환한다는 것은 높은 비트가 설정된다는 것을 의미합니다. 이는 부호가있는 채도 팩 명령어를 사용할 수 없음을 의미합니다. 부호없는

    1

    2답변

    CUDA를 사용하여 대용량 병렬 GPU 애플리케이션을 작성했습니다. 나는 그것을 손으로 최적화 해왔다. __fdividef_(x, y)으로 20 %의 성능 향상을 얻었으며 에 따라 Cuda C 프로그래밍 가이드 (섹션 C.2.1)을 사용하면 곱셈 및 덧셈에 비슷한 기능을 사용하는 것이 좋습니다. 이 함수는 다음과 같이 표현됩니다. __fmul_[rn,rz,

    5

    1답변

    SSE Intrinsics에 대한 몇 가지 래퍼 클래스를 작성합니다. 대부분 형식 안전 기하 연산을 얻는 것이지만 몇 가지 편의 기능을 추가하는 것입니다. 모든 기능과 운영자는 인라인입니다. 이론 상으로는 모두 원시 SSE 어셈블리 (함수 호출 없음)로 직접 컴파일되며 전자는 결코 XMM 레지스터를 떠나지 않습니다. 결과를 보장하기 위해 내 SSE 클래스를

    3

    2답변

    측면 조건 (MatLab에서)을 사용하여 카메라 영상의 2D 픽셀 좌표에서 3D 좌표를 재구성하려고합니다. 내재적이며 내재적 인 카메라 매개 변수가 있습니다. 균질 한 변환을 사용하면 3D 좌표를 초기 세계 좌표계에서 카메라 좌표계로 변환 할 수 있습니다. 그래서 나는 다음을 얻을 Calibration results (with uncertainties):

    4

    1답변

    SSLS2/AVX 내장 함수가있는 C++에서 HLSL float4 호환 유형을 작성하고 있으며 현재 HLSL에서 float4에 사용할 수있는 모든 set-swizzle 연산을 구현 중입니다. SSE2를 구현하기위한 최적의 SSE2 구현 방법을 알아 내려고 노력하고 있습니다. SSE 셔플을 사용하여 구현할 수있는 4 가지 구성 요소 세트를 포함하여 2 개 또