나는 pca 분석 (회귀 및 kmeans 클러스터링)에 sklearn을 사용하려고합니다. 20k 기능, 2000k 행을 가진 데이터 세트가 있습니다. 그러나 데이터 세트의 각 행에 대해서만 피쳐의 하위 세트 (일반적으로 20k의 5 개 정도) 만 측정되었습니다.알 수없는 특징 값을 가진 scikit-learn PCA
sklearn이 가치가 측정되지 않은 인스턴스의 기능을 사용하지 않도록 팬더 데이터 프레임/설정 sklearn을 어떻게 패드해야합니까? (예 : null 기능 값을 0.0으로 설정하면 결과가 왜곡됩니까?).
예 :
X = array[:,0:n]
Y = array[:,n]
pca = PCA()
fit = pca.fit(X)
데이터 세트가 가장 특징 값을 0으로 채워 경우 - 다음 PCA는 유효합니다? 내가 3 옵션을 볼 수
기능 및 그 이유는 무엇입니까? 텍스트 문서의 용어 빈도와 같으면 null이 아니어야합니다. 이것은 여전히 PCA의 훌륭한 시나리오입니다. 만약 그들이 센서로부터의 연속적인 값이라면, 어쩌면 당신은 그것들을 대체하려고합니다. – maxymoo
피쳐는 각 분석 타입 (예 : 경도, 원소 농도, 색상 등)에 대한 단일 플로트 값으로 구성되는 물리적 인 분석이지만, 일부만 측정됩니다. 값은 입력 할 수 없습니다. –
잘 sklearn은 nulls를 포함하는 데이터를 다룰 수 없으므로, 당신은 그것들과 무언가를해야합니다 ... 만일 당신이 그들을 측정했다면 0이 아니었을 때 0으로 설정하면 그렇습니다. 결과를 분명히 왜곡합니다. 어쩌면 널 값을 전가하기 위해 의사 결정 트리를 사용할 수 있습니까? – maxymoo