각 행 (샘플)이 비트 목록 (~ 200 000
비트)으로 표시되는 큰 데이터 세트 (10 000
행)가 있습니다. 각 비트는 부재 또는 샘플에 지형지 물의 존재 여부를 나타냅니다. 그래서, 이 큰 (10 000 x 200 000
) 높은 차원 스파 스 데이터가 각 샘플에 대해, 나는 단지 비 제로 비트의 인덱스를 저장하고있어, 메모리 공간을 절약하기 위해sklearn.svm.LinearSVC와 함께 사용되는 희박한 행렬 표현
을 설정합니다. 7 개 기능을 가진 벡터 예 :
[0, 0, 1, 0, 0, 1, 1] ===> [2, 5, 6]
나는 모든 데이터 세트에 대해이 작업을하고 있어요. 결과가 X
(10 000
가변 크기 벡터)이되도록 합니다. 각 행은 두 개의 라벨 중 하나로 표지
[[0,0,1,0], [[2],
initial_data= [0,1,1,0], ===> [1,2], = X
[0,1,0,1]] [1,3]]
: malignant
또는 benign
초기 데이터는 Exemple 3x4
세트. 선형 지원 벡터 분류 모델 (sklearn.svm.LinearSVC
의 모델)은 X
으로 표시되는 데이터에 대해 학습됩니다. 상기 모델은 스파 스 입력을 받아 SciPy
가능한 일곱 개 표현이 있음을 알고 :
- csc_matrix : 압축 스파 스 열 형식
- csr_matrix : 압축 스파 스 행 형식
- bsr_matrix : 블록 스파 스 행 형식
- lil_matrix : 목록 형식 목록
- dok_matrix : 사전 키 형식
- coo_matrix : COOrdinate 형식 (일명 IJV, 삼중 항 형식)
- dia_matrix : 대각선 형식
표현은 모델을 훈련에 더 효율적입니다? X
에서 그 표현으로 효율적으로 전달하려면 어떻게해야합니까?