k-means

0열

2답변

단위 간격 (즉, 수치 값이있는 1 차원 데이터 세트)에서 데이터 집합 집합이 있습니다. 온라인에서 몇 가지 추가 데이터 포인트를 수신하고 일부 데이터 포인트의 값이 동적으로 변경 될 수 있습니다. 나는 이러한 문제를 효율적으로 처리 할 수있는 이상적인 클러스터링 알고리즘을 찾고있다. 새 인스턴스를 추가 할 때 sequential k-means cluste

0열

1답변

MATLAB 경고 - Davies-Bouldin 수렴하지 않음

현재 R2014a 버전의 MATLAB에서 inbuilt 함수를 사용하여 데이터 세트에서 Davies-Bouldin Evaluation을 실행하려고합니다. 데이터의 큰 샘플 기능을 실행할 때, 나는 다음과 같은 경고를받는 유지 : "Warning: Failed to converge in 100 iterations during replicate 5. > In

3열

1답변

이미지 클러스터링을위한 k- 평균 알고리즘 수정

이미지 클러스터링을위한 수정 된 k_mean 알고리즘을 구현하려고합니다. 즉 k- 평균과 매우 유사합니다. 차이점은 새 센터 계산에만 해당됩니다. 사실 저는 클러스터 센터를 초기화하고 픽셀과 센터 사이의 거리를 계산했습니다. 이제는 최소 거리를 기반으로 픽셀을 클러스터에 할당해야하지만 여기서 문제는 픽셀을 클러스터에 할당하고 저장하는 방법입니다. 어떤 픽셀

0열

1답변

알고리즘 성능 예측, O 표기법

텍스트 필드 집합에 k- 평균 기반 클러스터링을 적용하고 있습니다. 는 다음과 같이 performancewise 완료 계산은 다음과 같습니다 1.000 records ~ 4m:30s 30.000 records ~ 15m:30s 100.000 records ~ 1h37m:30s 가 어떻게 예 500.000를 들어, N 기록의 계산을 완

3열

1답변

k에서 클러스터 값을 선택하는 것은 알고리즘을 의미합니다.

k를 쓰려고하는데, 위치를 저장하고 두 개의 클러스터 클러스터를 반환하는 double [] []을 사용하는 알고리즘을 의미합니다. 나는 단지 빠른 질문을 가지고 있습니다 : 초기 클러스터 값을 선택하는 가장 좋은 방법은 무엇입니까? 값을 무작위로 시도했지만 항상 정상적인 것은 아니며 온라인에서이 질문에 대한 답변을 찾을 수 없습니다. 어떤 도움이라도 대단히

3열

1답변

scikit의 k-means 벡터는 내부적으로 정규화 된 학습을합니까? 아니면 TfidfVectorizer 정규화가 작동하지 않습니까?

scikit-learn Kmeans의 벡터가 내부적으로 L2 표준 단위로 정규화되었거나 TfidfVectorizer과 함께 잘못 되었습니까? TF-IDF 벡터 라이저를 사용하여 벡터화 한 텍스트 데이터에 대해 클러스터링을 수행합니다. 이 코드는 여기에 복사하기에는 너무 길지만 본질적으로 나는 20 개의 뉴스 그룹 데이터 세트에서 데이터를 벡터화하고 클러스터

1열

2답변

K- means 클러스터링, 주요 이해 문제

매트릭스 데이터 집합이 dt = 64x150이라고 가정하면 클러스터에 64dim 행렬이 있다고 가정합니다. vl_feat의 라이브러리로부터 kmeans 기능을 사용 , 나는 20 centrers 내 데이터 집합을 클러스터합니다 [centers, assignments] = vl_kmeans(dt, 20); centers는 64x20 행렬이다. assign

0열

1답변

Spark 1.0.1 이후 KMeansModel.predict 오류가 나타나는 이유는 무엇입니까?

나는 Scala (2.10.4 버전)과 Spark과 함께 일해 - 나는 Spark 1.0.1로 이사했다. 버전과 내 스크립트 중 하나가 올바르게 작동하지 않는 것으로 나타났습니다. 다음과 같은 방법으로 MLlib 라이브러리의 k-means 방법을 사용합니다. 여기 scala> clusters.toString res8: String = [email prot

2열

2답변

K 수행시 문제점은 클러스터링을 의미합니다.

K는 클러스터링을 의미하는 CSV 파일에서 다음 데이터를 클러스터하려고합니다. Sample1,Sample2,45 Sample1,Sample3,69 Sample1,Sample4,12 Sample2,Sample2,46 Sample2,Sample1,78 기본적으로 샘플은 노드이고 숫자는 에지 (가중치) 인 그래프입니다. 나는 다음과 같은 파일을 읽을

1열

2답변

Python에서 삼각형 부등식을 사용하여 가속화 된 k-means 클러스터링 구현 (Scikit learn)

대규모 데이터 세트 (9106 개 항목, 100 차원)에서 k- 평균 클러스터링을 실행하려고합니다. 이것은 매우 느려서 Charles Elkan (http://cseweb.ucsd.edu/~elkan/kmeansicml03.pdf)이 설명한 삼각형 부등식을 사용하는 것이 좋습니다. 도구 상자에 미리 작성된 기능이 있습니까? 이 작업을 수행하는 모든 도구 상