2017-10-10 15 views
-1

초보자이며 아래 시나리오를 모델링하는 방법에 대한 조언이 필요합니다.

외부 시스템에서 평균 ~ 5000 행의 데이터를 소비하고 있습니다. 매일. 들어오는 행의 수는 4950에서 5050 사이입니다. 들어오는 행 수가 정상이 아닌지 알려주는 경고 메커니즘을 만들고 싶습니다. 즉, 주어진 날에 2500 행을 50 % 줄이거 나 평균보다 15000 행이라고 말하면 해결할 수 있습니다.

샘플 데이터는 다음과 같습니다.
| 주 | 들어오는 데이터의 크기 (MB 단위) | 행 수 | 레이블 |
| 평일 | 3.44 | 5000 | Y |
| 평일 | 3.3 | 4999 | Y |
| 평일 | 3.1 | 4955 | Y |
| 평일 | 3.44 | 5000 | Y |
| 주말 | 4.1 | 5050 | N |

나의 초기 생각은 몇 가지 이상 탐지 알고리즘을 사용하는 것이 었습니다. 나는 Principal Component Analysis 알고리즘을 사용하여 예외를 탐지하려고 시도했다. 나는 매일받는 행의 총 수를 모으고 그것을 모델 훈련에 사용했다. 그러나, 내가 가지고있는 데이터를 가지고 훈련을 한 후, 매우 제한적이었으며 (500 회 미만의 관찰) 나는 정확도가 매우 낮다는 것을 발견했다. One-Class SVM도 좋은 결과를주지 못했습니다. 나는 Categorical Feature, Label as .. 레이블로 "Number of rows"를 사용했고이 경우 나에게 아무런 관심도없는 나머지 매개 변수는 무시합니다. 들어오는 데이터의 날짜와 크기에 관계없이 내 논리는 행 수만을 중심으로 회전합니다. 또한 나는 지금까지 결코 부정적인 시나리오를 가지고 있지 않다. 의미가 너무 적거나 너무 많은 레코드를받지 못했다. 그래서 나는 변칙적 인 것으로 5050 개의 행을받은 모든 날을 표시했습니다. 나머지는 정상으로 표시했습니다.

저는 근본적으로 잘못된 것을하고 있다는 것을 알고 있습니다. 문제는 내 시나리오가 기계 학습에서 사용하기에 적합한 지 여부입니다. (나는 그렇다고 생각하지만 당신의 의견을 원했습니다) 예인 경우, 표본 변이가 거의없는 그러한 제한된 교육 데이터를 처리하는 방법. 그리고 그것은 정말로 이상한 문제입니까, 아니면 좀 더 나은 결과를 얻기 위해 어떤 분류 알고리즘을 사용할 수 있습니까?

감사합니다.Azure Machin Learing - 매우 제한된 데이터 세트로 훈련하는 방법

답변