simd

    1

    1답변

    UPD : 나는 용어 ​​(SIMD vs 벡터화 된 계산)를 혼동하고 문제가 정확히 무엇인지 명시하지 않는 너무 광범위한 예제를 제공하기 때문에 원래 형식의 질문이 잘못 작성되었습니다. 나는 하나가 일반적으로 사용하는 N 차원 텐서 계산을 설명하는 것, 내가 수학에서 을 나타날 때마다보다 더 좋은 배합이 문제를 연결합니다 그것을 "당신이 요구하는지 불분명"

    5

    1답변

    문자의 첫 번째 인스턴스를 찾으려고합니다.이 경우에는 simd (AVX2 또는 이전 버전)를 사용합니다. _mm256_cmpeq_epi8을 사용하고 싶습니다. __m256i의 결과 바이트 중 하나가 0xFF로 설정되었는지 빠르게 확인하는 방법은 _mm256_movemask_epi8을 사용하여 결과를 바이트에서 비트로 변환하고 ffs를 사용하여 일치하는 인덱

    1

    2답변

    나는 _mm_shuffle_ps의 작동 방식을 이해합니다. 예를 들어 다음과 같습니다. __m128 r = _mm_shuffle_ps(x,y, _MM_SHUFFLE(2,0,2,0)); r는 내용 x[0], x[2], y[0], y[2]이있을 것이다. 그러나 _MM_SHUFFLE도 _mm256_shuffle_ps에 대해 4 개의 매개 변수를 사용하는 반면

    5

    1답변

    내장 함수를 사용하여 SIMD 벡터의 요소를 증가시키고 싶습니다. 가장 간단한 방법은 다음과 같이 각 요소에 1을 추가하는 것 같다 : (참고 : vec_inc 전에 1로 설정되어있다) vec = _mm256_add_epi16 (vec, vec_inc); 하지만 벡터를 증가하기 위해 특별한 지시가? inc과 같이 this page? 아니면 다른 쉬운 방

    -1

    1답변

    한 번에 3 개의 비대칭 정수 값을 갖는 3 개의 대칭 집합에 대해 작동하는 코드가 있습니다. 상당한 양의 조건 코드와 많은 상수가 있습니다. 이것은 병목 현상 병목 현상이되었으며, 64 비트 Intel/AMD CPU에서 SIMD가 성능 향상을 가져올 때 엄지 손가락 규칙을 찾고 있습니다. 코드는 꽤 길며 이전에는 SSE2 나 AVX를 사용 해본 적이 없기

    1

    1답변

    (이 질문은 "소프트웨어 권장 사항 없음"규칙과 관련이있을 것입니다. 자신의 종이 F_2 Lanczos revisited, 피터슨과 Monico는 Z/2Z 이상 선형지도의 커널의 부분 공간을 찾기위한에는 Lanczos 알고리즘의 버전을 제공에서 . 내 논문의 읽기가 정확하다면 (그것이 맞는지 아닌지에 상관없이), 제시된 알고리즘은 사용 된 기계의 단어 크기

    1

    1답변

    vector[index]에 특정 인덱스에 대한 128 비트 메모리 정렬이 있다는 것을 컴파일러에 알릴 수 있습니까? 또는 색인으로 처리 할 수 ​​없으며 포인터로 처리해야합니까?

    6

    2답변

    SSE 유형간에 변환을 구현하고 있으며 SSE4 이전 대상에 대해 int8-> int64 확장 변환을 구현하는 것이 번거롭다는 것을 발견했습니다. inline __m128i convert_i8_i64(__m128i a) { #ifdef __SSE4_1__ return _mm_cvtepi8_epi64(a); #else a = _mm_u

    1

    1답변

    저는 최근에 벡터화 된 지수 함수의 구현을 연구하고있었습니다. 실제로는 단 정밀도를위한 코드를 찾는 것이 매우 간단하지만 배정도를위한 코드를 찾는 것은 매우 어렵습니다. 나는 배정도 AVX 지수의 구현을 찾을 수 없었습니다. SSE의 코드는 거의 적용될 수 있지만 일반적으로 2^n을 곱하기 위해 사용되는 트릭은 AVX에 적용 할 수없는 것 같습니다. 누구든

    1

    2답변

    처리 속도 향상을위한 병렬 처리 알고리즘을 살펴 봅니다. Agner Fog's vector class library, VCL을 테스트하고 싶습니다. Vec16c (SSE2 명령어 세트) 및 Vec32c (AVX 명령어 세트)과 같은 다른 벡터 클래스를 선택하는 방법이 궁금합니다. 인텔 ® 아톰 ™ x5-Z8350 프로세서를 사용하고 있으며 사양에 따라 SS