-1

내 데이터 요소를 구성하는 블록 집합이있는 분류 문제가 있습니다. 블록 분류에 사용할 수있는 속성 중 하나는 기본적으로 다른 블록의 블록 번호 인 태그입니다. 블록에는 분류에 사용할 수있는 다른 속성 (크기)이 있습니다. 내 데이터 세트의 "태그"속성을 다음과 같이 분류에 사용할 수 있습니다. - 두 블록에 동일한 클러스터에 속한 두 개의 태그 (블록 번호)가있는 경우 블록 또는 데이터 포인트가 함께 클러스터되어야합니다. 여기서는 태그 번호가 미리 어떤 클러스터 번호인지 미리 알지 못합니다.클래스 ID가 클러스터 ID에 종속적 인 분류 자 ​​

Block 1 [Tag 4] size 10 
Block 2 [Tag 3] size 20 
Block 3 [Tag 1] size 100 
Block 4 [Tag 2] size 110 

여기서, 태그 속성에 기초하여, 블록 1 및 블록 2는 각각 블록 3 및 4에 태그를 붙인다. 또한 블록 3 및 블록 4 태그 블록 2 및 블록 1 각각. 따라서 블록 1, 블록 2는 클러스터 ID 1에 속할 수 있고 블록 3 및 4는 클러스터 ID 2에 속할 수 있습니다. 또한 블록 1,2의 크기는 블록 3,4의 크기보다 유사합니다. 분류의 최종 결과는

이어야합니다.
cluster id 1: Block 1 , Block 2 
cluster id 2: Block 3 , Block 4 

이러한 데이터 요소를 분류하는 방법이 있습니까? 내가 이해하는 바와 같이, Naive Bayes Classifier는 각 속성이 서로 독립적이라고 간주합니다. 여기서, 속성 (태그)은 장래의 이벤트 (태그 첨부 블록 번호가 속하는 클러스터 ID)에 의존합니다. 이 문제를 해결하기 위해 어떤 유형의 클러스터링 알고리즘을 사용해야합니까? 내가 생각할 수있는 한 가지 접근법은 크기와 같은 다른 속성을 사용하여 k-means를 실행하는 것입니다. 그런 다음 클러스터 ID를 대략 알고있을 때이 클러스터 ID를 태그에 추가하고이를 분류 속성으로 사용합니다. 속성이 결과 클러스터 자체에 의존하는 분류자를 작성하는 다른 방법이 있습니까? 도움이 될 것입니다.

+1

클러스터 및 분류 레이블이 동일합니까? 예를 들어 명확하게 설명해 주시겠습니까? – Ash

답변

0

이 목표는 의미가 없습니다.

1 -> 4 -> 2 -> 3 -> 1 

는 왜 두 그룹, 1 + 2, 3 + 4에 이것을 깰 나을 :

귀하의 4 개 블럭과 태그는 사이클을 형성?

k-means 및 기타 알고리즘은 여기에서별로 도움이되지 않습니다. 좋은 해결책이 무엇인지 공식적인 속성을 찾아야합니다. 그런 다음이 속성을 최적화하는 알고리즘을 찾으십시오. k-means는 sqaured 편차를 최소화합니다 - 이것이 어떻게 당신의 문제를 도울 것입니까?

+0

이것은 샘플 예제이며 우연히도주기를 형성합니다. 그것을 1 클러스터에서 (1,2)와 다른 클러스터에서 (3,4)를 갖는 이분 그래프로 봅니다. size 속성을 사용하여 블록을 클러스터로 분류 할 수 있기 때문에 k-means가 유용합니다. 그러나 태그 속성은 미리 사용할 수없는 미래 이벤트입니다. 현재 크기를 사용하여 블록을 먼저 클러스터로 분류 한 다음 해당 클러스터가 속한 클러스터를 기반으로 태그를 사용합니다. 이렇게하면 괜찮은 결과를 얻을 수 있지만 내 태그 속성은 데이터 집합에서 가장 눈에 띄는 특성이므로 더 정확한 결과를 원합니다. –