분류를 위해 SVM 구현에 scikit-learn 라이브러리를 사용할 것입니다.scikit-learn에서 데이터 세트에 txt 파일이 포함 된로드
내 기능의 값은 0/1이며 기능에 대한 txt 파일과 내 라벨에 대한 별도의 txt 파일에이 값을 저장했습니다.
내 문제는 scikit-learn을 사용하여 교육 및 테스트 단계를 위해 외부 데이터 세트를로드 할 수 있다는 것입니다.
분류를 위해 SVM 구현에 scikit-learn 라이브러리를 사용할 것입니다.scikit-learn에서 데이터 세트에 txt 파일이 포함 된로드
내 기능의 값은 0/1이며 기능에 대한 txt 파일과 내 라벨에 대한 별도의 txt 파일에이 값을 저장했습니다.
내 문제는 scikit-learn을 사용하여 교육 및 테스트 단계를 위해 외부 데이터 세트를로드 할 수 있다는 것입니다.
TXT/CSV 파일에서 벡터화되고 특히 압축 된 (스파 스) 데이터를 저장하는 것이 가장 좋은 방법은 아닙니다. 다시 읽을 때 문제가 발생할 수 있으므로 dtypes, 압축/"희소성"등을 잃게됩니다. 메모리에있는 TXT/CSV 파일을 읽을 수없는 경우도 발생합니다.
Here 희박한 행렬을 보통 (numpy) 한 행을 MemoryError
으로 끝낼 때 예를 볼 수 있습니다. 스파 스 (압축) 행렬을 CSV에 저장 한 다음 다시 읽으려고하면 (압축되지 않은 상태로) 읽는 것이 좋습니다.
그래서 난 당신이 사용하는 것이 좋습니다 것입니다 pickling :
저장/데이터 직렬화 :
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
이 clf
당신의 훈련 모델 또는 다른 스파 스/압축 데이터 구조
이 다시 읽고 디스크로부터 :
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')
체크 아웃 numpy 또는 pandas의 문서. 둘 다 CSV 파일을 읽는 기능을 가지고 있습니다. 파일이 CSV와 같은 것이 아니라면 직접 파싱해야합니다. 모든 세부 사항이 누락되어 더 이상 도움을받지 못할 것입니다. – sascha