2017-12-12 6 views
-4

레이블 수가 내 표본 수와 일치하지 않아 해결책이 제거 될 수 있다고 생각합니다. 샘플 데이터 중 일부는 전체적으로 좋지는 않습니다.sklearn.model_selection.train_test_split의 Python 오류 : ValueError : 일치하지 않는 샘플 수의 입력 변수가 있음 : [416858, 398427]

ValueError: Found input variables with inconsistent numbers of samples: [416858, 398427] 

사람이 설명 할 수 나는 그것을 해결하기 위해해야 ​​할 것이 무엇 : 나는 오류가

X = np.loadtxt('/Users/myname/PycharmProjects/my_project/X.txt') 
y = np.loadtxt('/Users/myname/PycharmProjects/my_project/y.txt') 

print np.shape(X) 
print np.shape(y) 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3) 

:

여기 내 코드입니까?

+0

이 기능은 ** 감독 학습 ** 용 util입니다. X와 y의 1 : 1 매핑이 없다면 (적어도 첫 번째 차원에서) 의미가 없습니다. 여기에는 가치있는 대답이 없습니다. – sascha

+1

나는 동의하지 않는다. 나는 브람의 대답이 가치 있다고 생각한다. – dirtysocks45

+1

아닙니다. 아닙니다. 그러나 당신은 그 사실을 깨닫게 될 지점으로 올 것입니다 (또는 그것을 이해하지 않고 나쁜 결과를 얻습니다). 실제 답변을 원한다면 다음과 같이 더 많은 정보를 추가해야합니다.이 불균형 X/Y 세트에 대한 매핑이 있습니다 (어느 것이 쌍을 이루고 있는지 확실히 알 수 있습니다)? 분류 (몇 개의 수업)? 회귀? – sascha

답변

-2

np.shape (x) 및 np.shape (y)의 결과는 무엇입니까? 어쩌면 그것이 당신을 도울 수 있습니다. 모든 입력에 대한 목표 값이 없다면 수정해야합니다. 누락 된 값이 무작위가 아닌 경우 모델의 결과에 영향을주기 때문에 삭제만으로는 문제가 될 수 있습니다. 최선의 선택은 대체를 수행하는 것입니다. 자세한 내용은 Wikipedia page을 참조하십시오.

+0

그게 내가 생각한거야. 그게 그게 뭔지는 몰랐지만, 고마워. – dirtysocks45