blas

3열

2답변

매트릭스 곱셈의 문자열을 수행하고 싶습니다.이를 피할 수 있다면 새로운 매트릭스를 할당하지 않는 것이 좋습니다. 예를 들어, I는 하는 난이 (인해 dgemm 모두 A 및 Bin 같은 변수를 표시 있음) 할 수있다 (그래서 A 및 C로 C 전달) C = C의 * B를 계산하고 싶어?

3열

4답변

선형 시스템의 효율적인 솔루션 Ax = b 상수 항이 하나만 변할 때

상수 항이 몇 개만 변할 때 큰 선형 방정식 시스템을 어떻게 효율적으로 풀 수 있습니까? 예 : 현재 Ax = b 시스템이 있습니다. A의 역함수를 한 번 계산하여 행렬에 저장하고 b에있는 모든 항목 업데이트가 x를 다시 계산하기 위해 행렬 - 벡터 곱셈 A^-1 (b)를 수행 할 때마다. 두 개의 엔트리 만 b에서 업데이트되므로 비효율적입니다. A-1이

1열

2답변

iOS BLAS - 프레임 워크 가난한 행렬 곱셈 성능 가속화

iPhone 용 접선 거리 기반 OCR 솔루션을 구현하고 있습니다.이 솔루션은 크기가 253x7 인 부동 소수점 행렬의 빠른 곱셈에 크게 의존합니다. 개념의 증거를 들어,이 같은 내 자신의 순진 매트릭스 루틴을 구현했습니다 : 당신이 볼 수 있듯이 Matrix operator*(const Matrix& matrix) const { if(cols !

1열

2답변

EPD 무료 배포판에서 MKL을 사용합니까?

Enthought 웹 사이트에 따르면 EPD Python 배포판은 numpy와 scipy에 MKL을 사용합니다. EPD Free는 MKL도 사용합니까? 그렇지 않다면 BLAS/LAPACK에 다른 라이브러리를 사용합니까? 나는 EPD Free를 사용하고있다. 7.3-2 또한, scipy.org에서 찾을 수있는 numpy 용 windows 바이너리 설치 프로그

1열

1답변

Blas와 같은 연산 최적화 - A` * B * A

B가 대칭 (양의 준결승) 인 A와 B 두 행렬이 주어지면 A` * B *를 계산하는 가장 빠른 (가장 빠른) 에이? 현재 BLAS를 사용하여 dsymm (임시 매트릭스 C 도입)을 사용하여 C = B * A를 계산 한 다음 dgemm을 사용하여 A` * C를 계산합니다. BLAS 및 mkl을 사용하여 더 나은 (더 빠른, 임시 없음) 방법이 있습니까? 감

0열

1답변

아르마 C++ 및 BLAS와 ATLAS는</p> <p>요약 ... 내가 arma.sourceforge.net/docs.html#example_prog의 example.cpp를 컴파일하려고</p> <p>을 mingw32

모두에서 LAPACK BLAS를 찾을 수 없습니다 나는 armadillo를 lapack과 blas로 컴파일하고 연결하려고합니다. 항상 같은 오류가 다시 발생합니다. 이 메시지는 ld.exe: cannot find -llapack ld.exe: cannot find -lblas 을 반환 내 모든 경로 아래 올바른지 확인하고 다음을 달렸다. g++ exa

1열

1답변

cblas_sgemm에 ints의 입력 행렬이 모두 0을 반환합니다.

int의 두 행렬에 대해 빠른 행렬 곱셈을 수행하기 위해 cblas_sgemm을 사용하려고합니다. 지금은 모두 0을 반환합니다. 예상되는 출력 데이터를 두 번 확인하기 위해 빠른 순진 행렬 곱하기를 실행했으며 그 값은 0이 아닌 것으로 가정합니다. 본래의 접근법은 작업 : typedef int mm_data_t; void func1(mm_data_t *

1열

1답변

BLAS 라이브러리에서 DDOT 함수 호출

BLAS 라이브러리를 포함하여 코드에서 BLAS 함수를 호출하고 컴파일러에서 오류가 발생하여 코드에 결함이있는 것 같습니다. "ddot가이 범위에 선언되지 않았습니다. " #include <stdio.h> #include <stdlib.h> #include <blas.h> int main() { double m[10],n[10];

5열

1답변

incx

벡터 X의 증가분, 즉 incX를 매개 변수로 사용하는 특정 BLAS 루틴이 있습니다. 증가량이 무엇이며 계산 결과에 어떤 영향을 미치는지 알 수 없습니다. 누구든지 몇 가지 예 또는 다른 종류의 정보를 제공 할 수 있습니까? 업데이트 : 여기에 가장 좋은 정보를 발견했습니다 : Intel HPC mkl manual

3열

1답변

N 개의 벡터를위한 메모리 레이아웃

효율을 위해 작은 차원의 N 개의 벡터 (X, Y, Z라고 가정 해 봅시다)를 어떻게 저장해야하는지 궁금합니다. 캐시 지역에 대한 이유 때문에 다른 [N] [3] (행 주요) 다음에 벡터를 패킹하면 레이아웃 [3] [N]보다 더 나은 결과를 얻을 것이라고 기대했습니다 (차원 X, Y 그런 다음 Z가 연속적으로 배치됩니다.) OpenMP를 사용하여 vecto