2017-10-31 9 views
0

누가이 작성자가 표준화에서 다음 코드를 사용했는지 알 수 있습니다.저자는 왜 다음 표준을 위해 다음 매트릭스를 사용 했습니까?

첫 번째 행은 나에게 잘 나타나지만 다음과 같은 공식으로 설정된 교육을 표준화했습니다.

(X - 평균 (X))/STD (X)

번째 행과 세 번째 행 (검증 및 테스트)가 열차의 평균 (trainme)를 사용한 그러나

및 표준 편차를 양성 (trainstd). 테스트 평균과 테스트 표준 편차와 함께 검증 평균 (validationme)과 검증 표준 편차 (validationstd)를 사용하지 않았습니까?

enter image description here

은 또한 다음 링크 (page 173)

답변

1

무엇 저자가하고있는 것은 합리적이다에서 책 페이지를 볼 수 있으며 통상적으로 수행되는 정도입니다. 아이디어는 동일한 정규화가 모든 입력에 적용된다는 것입니다. 이것은 본질적으로 몇 가지 새로운 매개 변수 (오프셋 및 축척)를 할당하고 교육 데이터에서 추정합니다. 그 계획에서, 값 100이 입력되면 정규화 된 값은 100이 나온 곳 (훈련, 테스트 등)에 관계없이 (100 - 오프셋)/스케일입니다.

오프셋 및 스케일은 컨텍스트에 따라 달라져야합니다. 데이터 세트가 주어지고 어떤 이유로 오프셋 및 스케일이 원본 트레이닝 데이터와 매우 다르다면, 중요한 것은 각 데이터가 동일한 데이터 세트에서 다른 데이터와 얼마나 관련이 있는지를 나타내는 것입니다. 예 : 200을 포함하는 데이터 세트에서 배율이 두 배 큰 경우 200을 100으로 처리해야합니다.

데이터 종속적 인 배율이 합리적인 지 여부는 경우에 따라 결정해야합니다. 나는 그걸 본 적이 없다는 것을 기억하지 못하지만 어떤 경우에는 할 수있는 일이 그럴듯한 것 같습니다.

그런데 일반적인 통계 질문에 대해서는 stats.stackexchange.com 및/또는 datascience.stackexchange.com에서 더 많은 관심을 갖습니다.