0
을 scikit 배우기 : 이제다중 레벨 모델 점수 I의 모습을 조금 단순화 scikit - 학습 모델이
clf1 = RandomForestClassifier()
clf1.fit(data_training, non_binary_labels_training)
prediction1 = clf1.predict(data_testing)
clf2 = RandomForestClassifier()
binary_labels = label_binarize(non_binary_labels_training, ["a", "b", "c"])
clf2.fit(data_training, binary_labels)
prediction2 = clf2.predict(data_testing)
f1_score1(non_binary_labels_testing, prediction1))
f1_score2(binary_labels_testing, prediction2))
을 f1_score1
는 f1_score2
보다 항상 더 낫다 . 다시 말해, 멀티 레이블 레이블은 동일한 멀티 레이블 레이블에서 생성 된 이진 레이블보다 점수가 좋습니다. 이유가 있고 이것이 예상 되는가?
약 70 개의 교육 및 테스트 파일과 36 개의 클래스가 있습니다 (위의 예와 같이 3 개가 아닙니다).
단일 출력 모델을 사용하는 경우 레이블을 이진화하지 않는 것이 가장 좋습니다. 이렇게하면 예측 정확도가 떨어질 수 있습니다. – gozzilli