K-Means로 MongoDB의 콜렉션을 조회하려고합니다. 내 컬렉션에 대한 설명 : 각 문서는 필드 목록, 문자열의 일부, 실수 중 일부, 정수 중 일부, 범주/부울 중 일부입니다. 내 쿼리에 대한 설명 : 위에 지정된 동일한 문서 모델의 문서. 알고리즘 : 쿼리가 실행되면 컬렉션에서 k-means를 실행하고 k- 클러스터를 찾습니다. 쿼리 할 가장 가까
큰 데이터 세트에서 k- 평균을 실행 중입니다. 나는 이것을 다음과 같이 설정했다. from sklearn.cluster import KMeans
km = KMeans(n_clusters=500, max_iter = 1, n_init=1,
init = 'random', precompute_distances = 0, n_jobs = -2)
#
이 질문은 2D 가우시안 데이터의 EM 클러스터링 (또는 K 평균)의 시각화와 관련됩니다. 말하자면, 3 클러스터의 데이터 샘플에 대해 3 가지 색상 (r, g, b)을 가진 산점도에서 EM으로부터 얻은 3 개의 클러스터를 표시했습니다. 이제 저는 타원형 윤곽을 그 위에 투영하려고합니다. 나는 세 가지 countours의 각각의 색깔이 r에서 b로 전체 c
k- 평균 알고리즘에 대한 변수를 선택하는 좋은 방법이 있는지 궁금합니다. 이 알고리즘을 사용하여 시장 세분화를 시도하고 수십 개의 잠재적 변수가있는 데이터 집합을 갖기 위해 노력하고 있습니다. 나는 해석하기 쉬운 결과를 원합니다. 따라서 변수의 수를 최대로 제한해야합니다. 5-6. 저는 SPSS Statistics 또는 Weka에서 구현할 수있는 솔루션에
연구 논문 프로젝트를 작성하려고하는데 클러스터링 K- 평균 알고리즘을위한 커널 함수 이해에 도움이 필요합니다. 나는 위키 백과에서 무엇이든 찾을 수 없다. http://en.wikipedia.org/wiki/Kernel_method 또한 내 프로젝트에도 구현해야한다. 그래서 코드 pls 누군가가 나를 도와주세요. Thnx 사전에.
Weka를 사용하여 데이터 집합에서 K-Means 클러스터링을 수행하면서 서로 다른 가중치가 서로 다른 속성에 미치는 영향을 검사하려고합니다. 그러나 각 속성의 가중치를 조정하면 클러스터링의 차이가 나타나지 않습니다. //Initialize file readers
...
Instances dataSet = readDataFile(dataReader);
k- 평균 알고리즘을 사용하여 문서 집합을 클러스터링합니다. (파라미터는 - 클러스터 = 8, 서로 다른 무게 중심에 대한 실행 횟수 = 10의 수) 문서 번호 5800 있다 놀랍게도 클러스터링 결과 90 % (최종 클러스터) 9 %의 문서가 클러스터 0 (첫 번째 클러스터)에 속합니다. 나머지 6 개 클러스터에는 하나의 샘플 만 있습니다. 이것에 대한 이
을 사용하여 각 클러스터 센터에 가장 가까운 50 개의 샘플을 출력합니다. 파이썬 scikit-learn 라이브러리를 사용하여 5000 개 이상의 샘플에 k-means 알고리즘을 적용했습니다. 클러스터 센터와 가장 가까운 50 개의 샘플을 출력하고 싶습니다. 이 작업을 어떻게 수행합니까?
저는 scipy에서 kmeans 클러스터링 알고리즘 구현을 시도해 왔습니다. 생성 된 클러스터의 품질을 측정하는 데 사용할 수있는 표준, 잘 정의 된 메트릭스가 있습니까? 즉 kmeans에 의해 클러스터링되는 데이터 포인트에 대해 예상되는 레이블이 있습니다. 이제 생성 된 클러스터를 얻은 후 예상되는 레이블과 관련하여 클러스터의 품질을 평가하려면 어떻게해야