blas

-2열

1답변

최근 행렬 곱셈에 대한 cblas_sgemm 호출의 성능이 행렬에 "큰"수의 0이 있으면 극적으로 향상된다는 것을 발견했습니다. 그것은 그것이 약 100 배나 그 cublas 사촌을 이길 때까지 향상됩니다. 이것은 아마도 희박 성의 자동 감지과 cblas_sgemm 기능에 의한 적합한 형식 변환에 기인 한 것일 수 있습니다. 불행히도 그러한 행동은 cuda

-2열

1답변

Mac OS에서 C 용 LAPACK 및 BLAS 라이브러리 설치

내 C 프로그램에서 사용할 LAPACK 및 BLAS 라이브러리를 다운로드 할 수있는 곳에서 지침/웹 사이트를 원했습니다. 또한 터미널에서 gcc 컴파일러와 어떻게 연결할 수 있는지 알고 싶었습니다. Google의 힘으로

3열

1답변

C- 연속 행렬의 Fortran gemm 함수

Fortran BLAS gemm 함수를 사용하여 행렬 곱셈을 수행하려고합니다. 자세한 내용은 here을 참조하십시오. 이 함수의 서명은 위의 링크에서 모든 매개 변수의 의미를 찾을 수 있습니다. call sgemm(transa, transb, m, n, k, alpha, a, lda, b, ldb, beta, c, ldc) 내 문제는 내가 대신 포트란

0열

1답변

링크 armadillo/blas/lackack with cmake (정의되지 않은 참조 'dgemv_')

나는 잠시 동안이 자리에 앉아 있었고 실제로 무슨 일이 일어나고 있는지 이해하지 못합니다. cmake 및 armadillo/lapack/blas에 다음과 같은 문제가 있습니다. 나는 cmake로 armadillo를 다운로드하고 컴파일 한 다음 내 프로그램에 연결하려고합니다. 그러나 다운로드 할 수있는 동안 컴파일하는 등 내 프로그램에 연결하는 데 문제가 있

0열

1답변

간단한 예제에 대한 pyclblas 사용

pyblblas (clblas에 대한 python 래퍼)를 사용하여 계산을 실행하려고했지만 약간의 문제가 발생했습니다. Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/python2.7/dist-packages/spyderlib/wid

0열

1답변

cmake FindLAPACK.cmake 및 FindBLAS.cmake는 LAPACK과 내가 제대로 내 노트북에 LAPACK 및 BLAS를 설치 한

BLAS를 링크 할 수 없습니다, 그리고 내 메이크에 -L/usr/lib64 -lblas -llapack 를 사용하여 연결할 수 있습니다. 나는 는/usr/share/cmake/모듈/ CMakeLists에서 cmake에서 제공하는 메이크 파일 및 링크 LAPACK하고, 내가 FindLAPACK.cmake 및 FindBLAS.cmake을 사용하고 BLAS

0열

2답변

GNU Blas 서브 루틴을 사용하는 벡터와 행렬 간의 요소 별 제품

과학 컴퓨팅 용 GNU 라이브러리를 사용하는 C에서 작업하고 있습니다. 기본적으로, 나는 다음과 같은 MATLAB 코드에 해당하는 작업을 수행해야합니다 x가 gsl_vector이며, A는 gsl_matrix입니다 x=x.*(A*x); . 난 다음 명령 (A *의 x)를 수행하는 관리 : gsl_blas_dgemv(CblasNoTrans, 1.0, A,

1열

1답변

lapack의 zheev에서 하위 및 상위 입력에 대해 다른 고유 벡터가 얻어 짐

다음 프로그램에서 zheev에서 'L'(행렬의 하단 삼각형 부분 읽기)을 'U'(상단 삼각 입력) 출력 고유 벡터가 다른 것을 발견했습니다. 누구 한테 도움이 되니? program zheev_test INTEGER N PARAMETER (N = 4) INTEGER LDA PARAMETER (LDA = N)

3열

1답변

R에서 희소 행렬의 멀티 코어 해석

분석을 위해 큰 희소 시스템을 Ax = b 형태로 풀 필요가 있습니다. 의 치수는 3Mx3M이며 양의 값입니다. 지금은 희소 행렬 및 작업 해결사를 지원하는 'Matrix'패키지를 사용합니다. 나는 약 40 초 만에 나의 문제를 해결할 수있다. 그러나 내 서버의 32 코어 중 31 코어가 계산에 하나의 코어 만 사용할 수 있기 때문에 현재 나를 비웃고 있습

0열

1답변

BLAS 루틴의 스케일링

m 개의 항목이있는 벡터에서 n x m 행렬의 동작을 계산하는 순진한 접근법은 O (n x m)과 같이 비례하는 코드로 이어질 것입니다. 나는 BLAS 루틴을 사용하는 것이 이러한 계산을위한 좋은 선택이지만 O (n x m)보다 잘 확장된다는 것을 알고있다. 아니면 순진한 접근 방식보다 속도가 빠르지 만 동일한 스케일링이 있습니까?