k-means

    0

    1답변

    Spark에서 KMeans 클러스터 분석을 처음 실행하려고 했으므로 어리석은 질문에 대해 사과드립니다. 많은 열이 포함 된 스파크 데이터 프레임 mydataframe이 있습니다. 나는 kmeans를 단지 두 개의 열, 즉 lat과 long (위도 & 경도)에서 단순한 값으로 사용하기를 원합니다. 나는이 두 컬럼을 기반으로 7 개의 클러스터를 추출하려고합니다

    1

    1답변

    ggplot2를 사용하여 어떻게 그릴 수 있는지 알고 싶습니다. bdata [, c (25:54)]는 유전자 표현의 값을 갖는 데이터 프레임의 30 열이며, 각 열은 유전자입니다. cl <- kmeans(t(bdata[,c(25:54)]), 3) plot(t(bdata[,c(25:54)]), col = cl$cluster) points(cl$center

    1

    3답변

    사용중인 데이터 세트가 아래에 나와 있습니다. K- 평균 클러스터 분석은 이러한 클러스터의 중심을 쉽게 찾을 수 있다고 생각합니다. 그러나 , 내가 클러스터 분석을 K가-의미 나는이를 얻을 센터를 플롯 실행합니다. 난 단지 기본적인 kmeans 코드를 사용하고 있습니다 : kmeans에 대해 조금 알려진 사실, 당신은 많은 무작위 초기화와 반복 알고리즘을

    2

    1답변

    amap 패키지의 Kmeans 기능에서 경고 메시지를 처리하는 솔루션을 찾고 있습니다. 경고 메시지는 다음과 같습니다. empty cluster: try a better set of initial centers. 어쨌든 신호를받을 수 있습니까? 그렇다면이 오류 메시지가 발생했을 때 알 수 있고 문제를 처리 할 수 ​​있습니까? (예 : 반환 값이있을 때까지

    0

    1답변

    k-means 알고리즘을 수행하기 위해 map reduce 프로그램을 만들려고합니다. map reduce를 사용하는 것이 반복 알고리즘을 수행하는 최선의 방법이 아니라는 것을 알고 있습니다. 매퍼 및 감속기 클래스를 만들었습니다. 매퍼 코드에서 입력 파일을 읽었습니다. map reduce가 완료되면 같은 입력 파일에 결과가 저장되기를 원합니다. 출력 파일을

    1

    1답변

    StandardScaler를 사용하여 확장 기능이있는 KMeans가 있습니다. 문제는 클러스터 중도가 또한 크기 조정된다는 것입니다. 프로그래밍 방식으로 원래의 센타이드를 얻을 수 있습니까? import pandas as pd import numpy as np from pyspark.ml.feature import VectorAssembler from

    0

    1답변

    이 코드를 사용하여 클러스터의 ARI 둘 사이의 세트를 계산하기 위해 노력하고 있어요 : #computes ARI for this type of clustering def ARI(table,n): index = 0 sum_a = 0 sum_b = 0 for i in range(len(table)-1): for j in range(len(

    0

    1답변

    tensorflow의 KMeansClustering에 미리 정의 된 inital_centers를 사용하려고했습니다. /lib/python3.5/site-packages/tensorflow/python/ops/variables.py in _init_from_args(self, initial_value, trainable, collections, validat

    0

    1답변

    저는 Kmeans를 사용하여 수치 변수를 이산화하려고합니다. 꽤 잘 작동했지만 클러스터에서 간격을 찾을 수있는 방법이 궁금합니다. 내 kmeans를 수행하려면 FactoMineR과 협력합니다. 나는 다음과 같은 그래프에 따라 3 개 클러스터를 발견 내 포인트는 이제 클러스터 내에서 내 수치 변수의 간격을 식별하는 것입니다. FactoMineR 또는 다른 패

    1

    1답변

    PCA를 사용하여 k- 평균 알고리즘 구현을 시각화하려고합니다. 나는 주 구성 요소 계수, 점수 및 분산에 대한 자습서를 this link에 있습니다. 다음 명령을 사용하고 있습니다. [coeff,score,~]=pca(X'); 여기서 X는 내 데이터입니다. 내 데이터는 30 x 455 행렬입니다. 즉, 455 개의 샘플을 가진 30 개의 피쳐입니다. 필자