sse

    1

    3답변

    알고리즘의 병목 현상 인 수천 개의 루프라는 명령어 블록을 최적화하려고합니다. 이 코드 블록은 N 벡터 3 (iA 어레이)에 대한 N 행렬 3x3 (iA 어레이)의 곱셈을 계산하고 N 결과를 oV 어레이에 저장합니다. 행렬 및 벡터의 각 행은 SSE 최적화를 사용하기 위해 128 비트 정렬 (4 개 부동 소수점)되어 있습니다 (4 번째 부동 값은 무시 됨)

    1

    1답변

    ARM 네온에 조건부 스토어를 생성하는 방법을 알아 내려고하고 있습니다. 내가하고자하는 것은이 SSE 교육과 동등합니다 : 무효 _mm_maskmoveu_si128 (__m128i d, __m128i n, char * p); 조건부로 d의 바이트 요소를 주소 p에 저장합니다. 선택기 n의 각 바이트의 상위 비트는 d의 해당 바이트가 저장 될지 여부를 결정합

    4

    2답변

    SSE-copy, AVX-copy and std::copy performance 외에도. 다음과 같은 방식으로 루프를 벡터화해야한다고 가정 해보십시오. 1) AVX를 통해 첫 번째 루프 배치 (8x8)를 벡터화합니다. 2) 루프의 나머지 부분을 두 개의 배치로 나눕니다. SSE를 통해 4의 배수 인 배치를 벡터화하십시오. 3) 직렬 루틴을 통해 전체 루프의

    0

    3답변

    좋아, 그래서 나는 벡터 처리가 유용한보다 사소한 상황에서 사용을 촉진하기 위해 SSE/AVX 내장 함수 중 일부를 사용하여 연산자 오버로딩을 사용 해왔다. 내가 코드를 작성하는 몇 가지 문제가 있었다 그러나 나는 몇 가지 성능 문제로 실행 한 지금까지 void sse::operator + (float *param) { vec = _mm_add_

    4

    1답변

    당신은 일반적으로 사람이 경우는 SIMD versions.For 인스턴스가 무엇인지 명확히 수, CPU에서 부동 소수점 성능보다 정수 연산 성능을 더 얻을 동안 : __m128i _mm_mul_epi32(__m128i a, __m128i b); //(multiplies 2 integer vectors) 대 : __m128 _mm_mul_ps(__m12

    2

    2답변

    일부 int 값 ([position % 2 = 0]의 값은 음수이고 [position % 2 = 1]의 값은 양수입니다)이 포함 된 배열이 있습니다. I는 레지스터 어레이로부터 4 단계에서 이러한 값을로드 할하지만 그 반전 __m128i v1; for (int k = 0; k < limit; k += 4) { v1 = _mm_load_si128

    8

    2답변

    몇 가지 생각 후, 나는 SSE를 사용하여 두 사원 수를 곱한 다음 코드를 내놓았다 : #include <pmmintrin.h> /* SSE3 intrinsics */ /* multiplication of two quaternions (x, y, z, w) x (a, b, c, d) */ __m128 _mm_cross4_ps(__m128 xyzw,

    0

    1답변

    여러분 중 일부 덕분에 이미 C++ use SSE instructions for comparing huge vectors of ints에 과학용 응용 프로그램의 기능 중 하나의 계산 속도를 높이기 위해 SSE를 사용했습니다. 최적화 SSE 함수의 최종 버전은 다음 int getBestDiffsSse(int nodeId, const vector<int> &g

    6

    2답변

    2 개의 64 비트 정수에 다른 2 개의 64 비트 정수를 곱하는 방법은 무엇입니까? 나는 그것을 할 수있는 지시를 찾지 못했습니다.

    -1

    2답변

    SSE 기반 벡터 클래스를 만들었습니다. 주기적으로 불리우는 단점 함수 내에 인스턴스를 생성합니다.이 함수는 프로그램 시작시 충돌을 일으 킵니다. 전역으로 선언하는 경우 문제가 발생하지 않습니다. 오류 메시지 : 프로세스가 -1073741819 (가 0xc0000005) 실행을 시간을 반환 : 3.471의 여기에 간단한 클래스입니다 : #include <m