2

비정상 분석을 위해 다중 변이 가이아스 분포를 사용하고 있습니다. 훈련 세트가다중 변량 가우시안 분포에서 하나의 피쳐 중 표준 편차를 0으로 처리하는 방법

19-04-16 05:30:31 1 0 0 377816 305172 5567044 0 0 0 14 62 75 0 0 100 0 0 
<Date>  <time>  <--------------------------- ------- Features ---------------------------> 

가 변경되지 않습니다 위의 기능 중 하나를 말할 수 있습니다 모양을 이, 그들은 제로 남아있다. 각 데이터 세트에서 개별 기능

계산 의미 = MU

mu = mean(X)' 

계산 시그마 2

sigma2 = ((1/m) * (sum((X - mu') .^ 2)))' 

같은 확률 들어

guassian

같은 표준 가우시안 수식을 사용하여 계산된다 특정 기능, ll 값이 0이되면 mean (mu)도 0이됩니다. 이어서 sigma2도 0이됩니다. 따라서 가우스 분포를 통해 확률을 계산할 때 "제로 바이어"문제가 발생합니다.

그러나 테스트 세트에서이 기능 값은 변동될 수 있으며 비정상적인 것으로 간주하고 싶습니다. 어떻게 처리해야합니까? 나는 그런 특징을 무시하고 싶지 않다.

답변

1

그래서 문제는 상수 인 변수가있을 때마다 발생합니다. 그러나 정규 분포로 근사하는 것은 전혀 의미가 없습니다. 그러한 변수에 대한 전체 정보는 오직 하나의 값에 포함되어 있습니다. 이것은 0으로 나누는이 현상이 발생하는 직관입니다.

훈련 세트에서 관찰되지 않는 변수의 변동이있는 경우 해당 변수의 분산을 특정 값보다 작게 설정하면됩니다. 클래식 분산 정의 대신 함수 max(variance(X), eps)을 적용 할 수 있습니다. 그러면 0으로 나누는 것이 일어나지 않을 것입니다.

+0

입력 해 주셔서 감사합니다. 나는 결과에 대해 시도하고 업데이트 할 것이다. –

+0

그리고? 내 대답이 도움이 되었습니까? –

+0

다시 한 번 제안에 감사드립니다. 늦은 답변에 대해 유감입니다. 예, 작동합니다. 그리고 당신이 제안한 것으로부터 이해할 수있는 것은, 그 특징에 작은 "분산"(평균/표준 편차가 0 일 때 추가 할 것입니다)을 통합하려고 시도하고 있다는 것입니다 (확인해주십시오). 이 값 (eps)은 비정상이라고 부를 수 있습니다. EPS는 (정의상) "기계의"부동 소수점 시스템에서 인접한 두 숫자 사이의 간격 일 것입니다. 이 트릭을해야한다고 생각합니다. :-) –