내 데이터 요소를 구성하는 블록 집합이있는 분류 문제가 있습니다. 블록 분류에 사용할 수있는 속성 중 하나는 기본적으로 다른 블록의 블록 번호 인 태그입니다. 블록에는 분류에 사용할 수있는 다른 속성 (크기)이 있습니다. 내 데이터 세트의 "태그"속성을 다음과 같이 분류에 사용할 수 있습니다. - 두 블록에 동일한 클러스터에 속한 두 개의 태그 (블록 번호)가있는 경우 블록 또는 데이터 포인트가 함께 클러스터되어야합니다. 여기서는 태그 번호가 미리 어떤 클러스터 번호인지 미리 알지 못합니다.클래스 ID가 클러스터 ID에 종속적 인 분류 자
Block 1 [Tag 4] size 10
Block 2 [Tag 3] size 20
Block 3 [Tag 1] size 100
Block 4 [Tag 2] size 110
여기서, 태그 속성에 기초하여, 블록 1 및 블록 2는 각각 블록 3 및 4에 태그를 붙인다. 또한 블록 3 및 블록 4 태그 블록 2 및 블록 1 각각. 따라서 블록 1, 블록 2는 클러스터 ID 1에 속할 수 있고 블록 3 및 4는 클러스터 ID 2에 속할 수 있습니다. 또한 블록 1,2의 크기는 블록 3,4의 크기보다 유사합니다. 분류의 최종 결과는
이어야합니다.cluster id 1: Block 1 , Block 2
cluster id 2: Block 3 , Block 4
이러한 데이터 요소를 분류하는 방법이 있습니까? 내가 이해하는 바와 같이, Naive Bayes Classifier는 각 속성이 서로 독립적이라고 간주합니다. 여기서, 속성 (태그)은 장래의 이벤트 (태그 첨부 블록 번호가 속하는 클러스터 ID)에 의존합니다. 이 문제를 해결하기 위해 어떤 유형의 클러스터링 알고리즘을 사용해야합니까? 내가 생각할 수있는 한 가지 접근법은 크기와 같은 다른 속성을 사용하여 k-means를 실행하는 것입니다. 그런 다음 클러스터 ID를 대략 알고있을 때이 클러스터 ID를 태그에 추가하고이를 분류 속성으로 사용합니다. 속성이 결과 클러스터 자체에 의존하는 분류자를 작성하는 다른 방법이 있습니까? 도움이 될 것입니다.
클러스터 및 분류 레이블이 동일합니까? 예를 들어 명확하게 설명해 주시겠습니까? – Ash