2016-08-13 3 views
0

데이터 집합이 20,000,000 개입니다. 각 행에는 30 개의 열이 있습니다.트리 분리 한 열의 고유 한 값을 기반으로하는 회귀 모델

하나의 열에 고유 한 7000 개의 제품 번호가 있습니다.

각 행에는 단가 이외의 모든 열을 사용하여 예측할 단원 비용 값이 포함되어 있습니다.

각 제품 번호에 대한 데이터를 모델링하기 위해 고유 한 의사 결정 트리 또는 고유 한 의사 결정 트리 분기를 만들고 싶습니다.

기본적으로 각 제품 번호에 대한 행을 분할하고 각 제품 번호를 개별적으로 모델링합니다.

가능한 경우 Azure에서 단일 모델을 교육하고 싶습니다.

답변

0
여러 모델

을 만들 lapply 사용 기차 스크립트 R 모듈을 만들어 사용해야합니다

훈련 스크립트는 뭔가 다음과 같다 :

model <- 
    lapply(seq(max(dataset$ProductNumber)), 
       function(j) 
        if(nrow(dataset[dataset$ProductNumber==j,])>0) 
        { 
         multinom(UnitCost~.,data=dataset[dataset$ProductNumber==j,]) 
        } 


     ) 

은 그럼 당신은

다음과 같은 예측 스크립트 뭔가를 사용할 수 있습니다
probabilities <- predict(model[[dataset$ProductNumber]], dataset, type="probs") 
scores<-data.frame(probabilities)