2017-11-13 5 views
0

scikitlearn의 f1_score avg 마이크로/매크로 (http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)는 다중 레이블 데이터 분류기를 기반으로 합니다만 동일한 레이블을 다중 레이블 클러스터링에 사용할 수 있는지 궁금합니다.다중 라벨 클러스터링에 scikit의 f1_score의 평균 매크로/마이크로를 사용할 수 있습니까?

제가 작업하고있는 데이터는 scikit의 kmeans를 사용하여 50.000 timeseries (ts)로 클러스터됩니다. 그래서 클러스터 형태로 끝납니다 : c1 {ts_1, ts_2 ...}, c2 {ts_20, ts_21 ...} 등

각 시계열에는 하나 이상의 너무 많은 레이블이있을 수 있습니다. f1 평균 마이크로 및 매크로 점수에 대한 황금 표준으로 사용하십시오. 그런 다음 클러스터의 시계열을 레이블 (L)로 대체 할 수 있습니다. c1 {(L_1, L_2), (L_2), (L_2), (L_3, L_4, L_5) ...}

Can the f1 avg 그러한 데이터 세트의 클러스터링에 마이크로 및 매크로 점수를 적용해야합니까? 아니면 다른 점수를보고해야합니까?

답변

0

아니요. 클러스터링은 자체 "레이블"(종종 0 ... k)을 사용하고 분류 레이블에 1 대 1 일치가 없기 때문에.

클러스터링은 분류가 아닙니다. "감독되지 않은 분류 (unsupervised classification)"라는 용어는 그 차이가 상당히 클 수 있기 때문에 매우 오도하기 쉽습니다. 그래서 클러스터링에 아무도이 용어를 사용하지 않는 것입니다.

대신 클러스터 평가 메트릭 중 하나를 사용하십시오.