나는 각각 약 150 개의 별개의 속성을 가진 ~ 10K 개의 개체 집합을 가지며, 그 중 약 1/4이 다른 속성 또는 여러 속성과 관련되어 있습니다.해당 속성을 기반으로 개체를 분류하는 접근 방식을 찾고 있습니다.
저는이 객체들을 '템플릿'객체로 정의하고있는이 객체들을 정렬하고자하는 약 120 가지 범주의 집합을 가지고 있습니다. 인스턴스가 템플릿과 정확히 일치하면 그 개체는 분명히 해당 범주에 포함되지만 개체의 약 10 % 만 실제로 정확히 일치하는 템플릿을 갖습니다. 결과적으로, 나는 카테고리와의 유사성을 기반으로 오브젝트를 스코어링하고 최상의 매치로 정렬 할 수 있기를 원합니다. 나는 또한 아주 비슷하고 새롭고 세련된 범주의 잠재 성을 나타내는 개체의 클러스터를 확인하고자합니다.
이것은 Weka, RapidMiner 또는 기타 기계 학습/클러스터링/분류 시스템의 작업처럼 보입니다. 그러나, 나는이 도메인에 좋은 입문 자료를 찾는 데 어려움을 겪고 있으며, 결과적으로이 경우이 도구를 사용하기 위해 어느 정도의 노력이 필요한지 알 수 없습니다. 이것이 계속적인 필요가있을 수 있다는 것을 감안할 때, 저는 분석 방법, 무게 등을 쉽게 변경할 수있는 것을 사용하고 싶습니다.
생각은?