저는 python을 사용하여 sklearn의 BayesianGaussianMixture (및 동일한 문제를 보여주는 GaussianMixture)을 실험했습니다.Sklearn의 BayesianGaussianMixture에서 매우 큰 로그 확률
배포본에서 가져온 항목이 여러 개있는 모델에 적합하게 설정 한 다음 보관 된 데이터 세트 (일부는 배포판의 일부 외부에 있음)로 모델을 테스트했습니다. 같은
뭔가 :
X_train = ... # 70x321 matrix
X_in = ... # 20x321 matrix of held out data points from X
X_out = ... # 20x321 matrix of data points drawn from a different distribution
model = BayesianGaussianMixture(n_components=1)
model.fit(X_train)
print(model.score_samples(X_in).mean())
print(model.score_samples(X_out).mean())
출력 :
-1334380148.57
-2953544628.45
score_samples
방법은 주어진 데이터의 당 샘플 로그 가능성을 반환하고, "의"샘플 "훨씬 더 가능성이보다 out "샘플을 예상대로 - 절대 값이 왜 그렇게 높은지 궁금합니다.
score_samples
에 대한 설명서에는 "각 샘플의 가중치 로그 확률 계산"이라고 나와 있지만 가중치의 기준이 무엇인지 명확하지 않습니다.
먼저 입력을 조정해야합니까? 입력 차원이 너무 높습니까? 추가 매개 변수 튜닝이 필요합니까? 아니면 메서드가 반환하는 것을 오해하고 있습니까?