나는 이미 "A"또는 "Not A"로 분류 된 수천 개의 샘플을 가지고 있습니다. 각 샘플에는 [0-n] 카테고리가 지정됩니다.태그 추정 (감독 학습)
내가 달성하고자하는 것은 새 샘플에 "A"또는 "Not A"라는 레이블을 붙이기에 적합한 범주를 찾는 것입니다.
내 접근 방식은 샘플을 두 세트로 나눠서 하나는 "A"로 표시된 모든 샘플을 포함하고 하나는 모두 "Not A"를 포함하는 하나의 세트를 포함합니다.
이제 모든 범주 세트를 만들고 "A"세트와 "Not A"세트에서 각 카테고리가 얼마나 자주 발생하는지 계산합니다.
그런 다음 각 범주에 대해 두 세트 ("A가 아님"/ (# "A"의 횟수 + # "발생하지 않음")에있는 발생 횟수)를 기준으로 오류 비율을 계산합니다. 그런 다음 오름차순으로 정렬됩니다 (오류 비율에 따라).
이제는 "A"로 표본을 작성하는 데 적합한 범주를 찾아야합니다.
----------------------------------------------------
| Category | error ratio | #occ "A" | #occ "Not A" |
--------------------------------------------------
| V | 0 | 2 | 0 |
----------------------------------------------------
| W | 0 | 59 | 0 |
----------------------------------------------------
| X | 0,138 | 125 | 20 |
----------------------------------------------------
| Y | 0,901 | 9 | 82 |
----------------------------------------------------
| Z | 1 | 1 | 0 |
----------------------------------------------------
그래서 먼저 카테고리를 추가로 처리하려면 얼마나 많은 관찰이 필요한지 결정해야합니다. 표시된 표에서 V와 Z는 아마도 너무 적은 사건이 있기 때문에 선택할 수있는 좋은 범주가 아닐 것입니다. 그러나 폐기되어야하는 카테고리를 결정하는 통계적 접근 방법이 있습니까?
그 후 나는 내 결정 경계가 어디에서 선택해야합니까. 나는 가능한 모든 카테고리 조합을 생성 한 다음 정확도를 측정하고 ~ 95 %보다 높은 정확도로 가장 큰 세트를 선택하려고 생각했습니다.
첫 번째 단계에서는 샘플이 "A"인지 "Not A"인지를 결정하기 위해 {V} 만 사용합니다. 그러면 {W}, ... {V, W}, {V, X}, ... {V, W, X}, ... {V, W, X, Y, Z} 그것은 (2^n - 1)의 복잡성 인 것 같습니다.
저는 수천 개의 카테고리가 있기 때문에 불가능합니다. 이 목적으로 사용할 수있는 최적화 알고리즘이 있습니까?
오류 비율 O (nlogn)별로 범주를 정렬 할 수 있습니다. 그런 다음, 톱 -k 카테고리 O (n)에 대해 occ "A"& occ "Not A"의 누적 계수를 기반으로 누적 오류 비율에 따라 상위 k- 카테고리를 선택합니다. 또한 특정 오류 비율이 낮은 카테고리를 어떻게 든 필터링 할 수 있도록 #occ "A"및 #occ "Not A"에 일부 상수를 추가하여 "이전"을 고려할 수 있습니다. –