simd

    0

    1답변

    SSE 내장 함수를 사용하여 코드를 최적화하려고합니다. 문서를 살펴본 후 부동 소수점 변수에 대해 SSE에 __m128 데이터 유형이 있으며 4 개의 부동 소수점을 저장할 수 있음을 알았습니다. SSE2에는 부동 소수점 숫자 2 개만 저장할 수있는 __m128d이 있습니까? 이 변수들의 차이점은 무엇입니까? SSE2가 SSE보다 빠르지 않습니까?

    1

    1답변

    지구의 해양을 돌아 다니면서 오랜 시간 동안 상호 작용하는 수천 개의 배들을 포함 할 새로운 시뮬레이션을 스케치하고 있습니다. 따라서 다양한 환경 조건에 대한 감지뿐만 아니라 센서 및 통신 범위를위한 "교차점 탐지"가 많이 있습니다. 우리는 WGS84가 아닌 구형의 지구를 가정합니다. 이것은 실시간 게임이나 그와 같은 것이 아니라 측정 기준을 울리는 이벤트

    2

    1답변

    Power4 기기 인 이전 PowerMac G5에서 테스트를하고 있습니다. 빌드가 실패 : typedef __vector unsigned long long uint64x2_p8; 나는 문제가 나는 형식 정의를 사용할 수 있도록시기를 결정하는 데 : 때문에 $ make ... g++ -DNDEBUG -g2 -O3 -mcpu=power4 -maltive

    1

    2답변

    이 질문의 범위를 좁히기 위해 C/C++ 프로젝트 만 고려해 보겠습니다. x86 아키텍처를위한 새로운 SIMD 명령어 세트 확장이 있습니다. 개발자가 혜택을 받으려면 개발자가 적절한 최적화 플래그를 사용하여 코드를 다시 컴파일해야하며 그에 따라 적절하게 수정해야합니다. 새로운 명령어 세트 확장이 비교적 자주 나오기 때문에 사용 가능한 명령어 세트 확장의 이

    1

    1답변

    나는 AVX가 SSE보다 약 1.5 배 빠르다고 기대했다. Intel Core CPU (Broadwell)의 3 개 어레이 (3 배열 * 16384 요소 * 4 바이트/요소 = 196608 바이트)는 L2 캐시 (256KB)에 적합해야합니다. 사용해야 할 특수 컴파일러 지시문이나 플래그가 있습니까? 컴파일러 버전 $ clang --version Apple

    1

    1답변

    일부 코드를 더 빨리 실행하려고합니다. 파라미터 (상수 배, INT)의 입력 값 어레이 (상수 배) 출력된다 : 입력으로서 고려 -이 지점 집중적 코드 부동 값 배열 (double) 자바 스크립트 매트릭스 현재 내가 g++-7 (Ubuntu 7.2.0-1ubuntu1~16.04) 7.2.0 을 사용하고 다음과 같은 명령 행 : 내 메모리 G ++ 과거

    0

    1답변

    나는 SIMD를 배우고 있으며 문자를 찾는 데 strchr을 이길 수 있는지 궁금합니다. strchr은 동일한 내장 함수를 사용하지만 문자가 배열에 있고 null 검사를 피할 계획 인 반면 null을 검사한다고 가정합니다. 내 코드는 다음과 같습니다에서 size_t N = 1e9; bool found = false; //Not really used ...

    3

    1답변

    인텔 내장 함수를 사용하여 여러 개의 단 정밀도 연산을 병렬로 수행하는 알고리즘을 작성했습니다. 내 알고리즘의 각 반복의 결과는 단일 256 비트 벡터 (__m256)의 0이 아닌 항목의 수입니다. 예를 들어 : 반복의 결과가 4 벡터의 수가 제로가 아닌 항목을 계산하는 가장 빠른 방법은 무엇입니까이다 00000000 FFFFFFFF 00000000 000

    0

    1답변

    XCode 7.1에서 C 프로그램과 함께 SIMD 내장 함수를 사용하려고합니다. (참고로 C++ 프로그램이 아니라 C99 프로그램을 작성하고 있습니다.) 필자는 immintrin.h를 포함 시켰으며, 매우 잘 작동하는 내장 명령을 사용하여 몇 가지 기능을 작성했습니다. float cimpl_sum_m128(__m128 x){ float out;

    1

    1답변

    내장 함수가 SIMD를 일반 매트릭스 곱셈보다 느리게 만드는 것은 무엇이며 SIMD를 사용하여 더 빠르게 대 매트릭스의 곱셈을 만들려면 어떻게해야하는지 궁금합니다. 여기에 matrixA[8][8], matrixB[8][8] 및 결과 matrixC[8][8]이 있습니다. float32_t의 최대 요소 수는 4이므로 2 개의 vmul 및 vadd를 수행 했으므