데이터 마이닝 분석 및 기계 학습의 새로운 기능입니다. 필자는 대학 할당을 위해 RapidMiner와 Weka를 사용하여 예측 분석과 클러스터링 분석의 사용을 비교하려고 노력해 왔습니다. 두 도구의 장점과 단점을 연구하고 분석 프로세스를 시작한 직후에 몇 가지 문제점을 발견했습니다. 나는 Weiter와 LinearRegression을 사용한 회귀 분석을 위
일부 기호는 밀접하게 관련되어 있습니다. 사람이 올라가면, 다른 사람은 내려 가고, 그렇지 않으면 함께 올라갑니다. 예를 들어, Exxon과 BP는 비슷한 기복을 가지고 있습니다. 두 종목이 비슷한 경향을 가지고 있는지 어떻게 알 수 있습니까? 그것은 클러스터링을 포함합니까? 클러스터 할 데이터 포인트는 무엇입니까? 여러 세트를 클러스터링 하시겠습니까?
데이터에 kmeans 알고리즘을 사용하려고합니다. 실행 중에 전달해야하는 옵션에는 초기 클러스터에 대한 경로가 필요합니다. 알고리즘을 시작하기 전에 어떻게 초기 클러스터를 가질 수 있습니까? bin/mahout kmeans \
-i <input vectors directory> \
-c <input clusters directory> \
CBIR 작업에 사용될 코드북을 만들려고합니다. 내가 kmeans을 수행하려고 할 때까지 모든 다음 내가 cv2.kmeans(descriptors, K=500, criteria=(cv2.TERM_CRITERIA_EPS | cv2.TERM_CRITERIA_MAX_ITER, 1, 10), attempts=1, flags=cv2.KMEANS_RANDOM_CENT
저는 r에 다 변수 k-means 클러스터 그림을 만들려고합니다. 나는 3 개의 변수와 10 개의 데이터 열, 문맥 (아이리스의 경우와 같은)을 11 가지 변수로 가지고 있습니다. 내가 무슨 일을하고있는 중이 야 PeruReady.km <- kmeans(PeruReady[, -1], 3, iter.max=1000)
tbl <- table(PeruReady
내가 여기서 잘못하고있는 것이 확실하지 않지만 누군가 나를 도울 수 있기를 바랍니다. 내 모델로 k-means 클러스터링을 사용하여 빠른 광부에서 x 검증을 실행하려고합니다. 데이터 세트를 가져오고 하나의 속성에 'label'역할을 설정하고 데이터를 명목에서 숫자로 변환 한 다음 해당 출력을 x 유효성 검사 프로세스에 연결합니다. 그런 다음 교육 데이터를
전체 자료에서 각 고유 단어에 대한 문서 목록과 tf-idf 점수가 있습니다. k-means를 실행하는 데 필요한 클러스터의 수를 나타내는 2 차원 플롯에서이를 시각화하려면 어떻게해야합니까? 당신이 볼 수 있듯이, 나는 TF-IDF 문서 매트릭스에 내 문장을 변형 할 수 있어요 sentence_list=["Hi how are you", "Good morni
찾은 알고리즘 목록을 통해 학습 목적으로 구현하려고합니다. 지금 나는 K 평균을 코딩하고 있으며 다음에서 혼란 스럽다. 당신은 어떻게 나는 모든 중심이 다를 수 있습니다 외에 초기 클러스터 중심 선택에 따라 한 특정 형식이 거기에 원래의 데이터가 얼마나 많은 클러스터 세트를 알 수 있습니까? 예를 들어 서로 다르지만 가깝게 클러스터 중심을 선택하면 알고리즘