cluster-analysis

-1열

1답변

우리는 거대한 데이터베이스를 가지고 훈련 데이터 D와 기계 학습 문제에 대한 전용 테스팅 데이터 T를 제공한다고 가정 할 수 있습니다. 이 데이터는 실제 문제의 여러 측면을 다루므로 그 구조가 매우 다양합니다. 신경망, SVM, 랜덤 포레스트 등의 알고리즘을 D와 함께 정의하지 않고 마지막으로 T에 대해 생성 된 모델을 테스트 할 때 특정 성능 측정 P (

1열

1답변

ggplot2를 통한 DBSCAN 클러스터링

ggplot2를 통해 dbscan 클러스터링 결과를 플롯하려고합니다. 올바르게 이해하면 현재 dbscan은 기본 플롯 기능으로 검은 색으로 노이즈를 그립니다. 우선 몇 가지 코드, library(dbscan) n <- 100 x <- cbind( x = runif(5, 0, 10) + rnorm(n, sd = 0.2), y = runif

0열

1답변

TF IDF 행렬 조건의 가중치가 증가합니다.

문서에 대한 tf idf 행렬이 있습니다. 나는 TFIDF 매트릭스에서 두배로하고 싶은 가중치를 가지고있다. 내가 매트릭스 weightTerms을 가지고 있고 코드 from sklearn.feature_extraction.text import CountVectorizer count_vectorizer = CountVectorizer(min_df=1,st

0열

1답변

R에서 클러스터링을 의미합니다. DTM이 'NaN'을 만듭니다.

tm 패키지를 사용하여 만든 문서 모음이 있고 동일한 패키지를 사용하여 문서 용어 행렬을 만들었습니다. k-means 클러스터링을 사용하여 문서를 클러스터하고 싶습니다. 유클리드 거리를 사용하기 때문에 먼저 벡터를 정규화하여 유클리드가 의미를 갖도록합니다. 그러나 정규화 할 때 하나의 특정 문서에 대해 'NaN'값이 만들어지며 그 이유를 알 수 없습니다.

0열

1답변

유사성 매트릭스에 대한 클러스터링 기술

나는 그들이 선택한 디지털 카메라의 기능을 기반으로 128 명의 응답자의 이진 데이터를 가지고 있습니다. 여기서 '1'은 지형지 물의 선택을 나타내고 '0'은 지양되지 않은 지형지 물을 나타냅니다. 92 개의 제품 기능이 행에 있고 응답자가 행에 있습니다. 각 응답자는 92 가지 기능 중에서 20 가지 기능을 정확하게 선택했습니다. 내가 선택한 기능을 기반

2열

1답변

K- 의미 클러스터 - 각 클러스터의 플롯 클래스 비율

감독 대상 학습 클러스터링 알고리즘의 성능을 향상시키기 위해 레이블이 지정되지 않은 데이터 집합의 클러스터 구조를 활용하는 프로젝트를 진행하고 있습니다. 매트릭스에 저장 - - 데이터 전처리 후 난과 같이 데이터를 클러스터링 K-수단을 사용 from sklearn.cluster import KMeans k = KMeans(n_clusters=40).fit

-1열

2답변

자바에서 텍스트 클러스터링 프로그램

나는 핵심 자바에서 사용자로부터 약 100 줄의 텍스트를 가져갈 프로젝트를 개발해야한다. 지금, 각 클러스터는 예를 들어, 키워드와 관련된 것, 상기 클러스터로 전체 텍스트를 헤어지고 싶어 내가 좋아하는 텍스트 있다고 가정합니다.. 는 "자바는 객체 지향 언어입니다 그것은 모듈화를위한 클래스를 사용 즐 즐 즐 .. . C++는 객체 지향 언어입니다. 어쩌구

-2열

1답변

Weka에서 속성 이름이 고유하지 않습니다.

CSV 파일을 가져 오는 데 문제가 있습니다. 다음 오류가 나타납니다 : "filename.csv"파일이 'CSV 데이터 파일'파일로 인식되지 않습니다. 이유 : 속성 이름은 고유하지 않습니다! 원인 : '2' '1'. 아무도이 문제를 해결하는 방법을 알려 줄 수 있습니까? Windows 10 64 비트 랩톱에서 Weka 3.8을 사용하고 있습니다. 미리

0열

1답변

는 (K-수단) 클러스터의 구성원을 추출하려면

나는 다음과 같습니다 데이터 세트가 R. 를 사용하여 클러스터링 분석을 수행하고 : : geneid S1 S2 S3 S4 M3 M4 M6 ENSRNOG00000000012 0.8032270364 1.5058909297 1.0496307677 1.4168397419 0.2750070475 0.9708536543 1.1570437101 ENSRNOG0000

-1열

1답변

scipy의 fcluster/fclusterdata에서 t (임계 값) 매개 변수는 무엇입니까?

scipy.cluster.hierarchy을 사용하여 일부 분석을 시도하고 있습니다. 좋은 덩어리 사진을 얻을 수 있지만 내 데이터에 대한 실제 클러스터 라벨을 가져 오려면 fcluster 또는 fclusterdata에 대해 t 매개 변수를 설정해야합니다. 교신은 단지 float이라고 말하고 있지만 그 숫자는 실제로 무엇을 의미합니까? 나는 그것을 올바르게