2017-01-30 8 views
0

분류를 위해 SVM 구현에 scikit-learn 라이브러리를 사용할 것입니다.scikit-learn에서 데이터 세트에 txt 파일이 포함 된로드

내 기능의 값은 0/1이며 기능에 대한 txt 파일과 내 라벨에 대한 별도의 txt 파일에이 값을 저장했습니다.

내 문제는 scikit-learn을 사용하여 교육 및 테스트 단계를 위해 외부 데이터 세트를로드 할 수 있다는 것입니다.

+1

체크 아웃 numpy 또는 pandas의 문서. 둘 다 CSV 파일을 읽는 기능을 가지고 있습니다. 파일이 CSV와 같은 것이 아니라면 직접 파싱해야합니다. 모든 세부 사항이 누락되어 더 이상 도움을받지 못할 것입니다. – sascha

답변

1

TXT/CSV 파일에서 벡터화되고 특히 압축 된 (스파 스) 데이터를 저장하는 것이 가장 좋은 방법은 아닙니다. 다시 읽을 때 문제가 발생할 수 있으므로 dtypes, 압축/"희소성"등을 잃게됩니다. 메모리에있는 TXT/CSV 파일을 읽을 수없는 경우도 발생합니다.

Here 희박한 행렬을 보통 (numpy) 한 행을 MemoryError으로 끝낼 때 예를 볼 수 있습니다. 스파 스 (압축) 행렬을 CSV에 저장 한 다음 다시 읽으려고하면 (압축되지 않은 상태로) 읽는 것이 좋습니다.

그래서 난 당신이 사용하는 것이 좋습니다 것입니다 pickling :

저장/데이터 직렬화 :

from sklearn.externals import joblib 
joblib.dump(clf, 'filename.pkl') 

clf 당신의 훈련 모델 또는 다른 스파 스/압축 데이터 구조

이 다시 읽고 디스크로부터 :

from sklearn.externals import joblib 
clf = joblib.load('filename.pkl') 
+0

답변과 일러스트레이션에 감사드립니다. 나는 너의 지시를 따르겠다. – Stateless

+0

@Shahrooz, 도움이 되었습니까? – MaxU

+0

네, 도와 주셔서 감사합니다. 나는 단지 분류기에서 gama와 c 매개 변수를 어떻게 설정할 수 있는지 모른다. 이 매개 변수를 매 실행마다 수동으로 설정해야합니까, 그렇지 않으면 자동으로 설정됩니까? 자동으로 설정되면 어떻게 값을 찾을 수 있습니까? – Stateless