2014-02-24 9 views
2

pmml 패키지를 사용하여 R 분류자를 PMML로 내보내는 중에 트리의 노드에 대한 클래스 배포가 내보내지지 않은 것으로 나타났습니다. http://www.dmg.org/v1-1/treemodel.htmlR PMML 클래스 배포

는 PMML이 정보를 가지고 어쨌든 거기 :

PMML은 ScoreDistribution 요소와이를 지원? 이 정보에 의존하는 다른 도구를 사용하여 PMML을 읽으 려합니다.

library(randomForest) 
library(pmml) 

iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,proximity=TRUE) 
pmml(iris.rf) 

답변

4

당신이 사용하려고하는 기능을하는 등 좀 더 information..such를 제공 할 수

내가 좋아하는 일을하고 있어요.

예를 들어 randomForest 패키지를 사용하는 경우 점수 배포에 대한 정보를 제공하지 않는다고 생각합니다. 그래서 어느 쪽도 PMML 표현을 할 수 없다. 그러나 기본값을 사용하는 경우 분류 케 이스의 매개 변수 'nodesize'는 같음 1과 같고, 이는 터미널 노드가 다음과 같은 ScoreDistribution을 갖음을 의미합니다.

ScoreDistribution value = predictedValue probability = "1.0" />

ScoreDistribution 값 = AnyOtherTargetCategoty 확률 = "0.0"/>

는 rpart 트리 모델을 사용하는 경우 PMML 함수 출력에게 점수 분포 정보를한다. 아마도 당신이 사용했던 정확한 명령을 우리에게 줄 수 있습니까?

+0

저는 실제로 randomForest 패키지를 사용하고 있습니다. 스코어 분포를 제공하는 Weka의 RandomForest 소스를 살펴 보았습니다. 왜 R은 똑같지 않니? 사용중인 예제 코드로 내 질문을 편집했습니다. – halfwarp

+1

내가 말했듯이, 그 이유는 RandomForest 패키지에 있는데, 'pmml'이 아닙니다. 그 패키지의 저자가이 정보를 출력하지 않기로 선택한 이유를 말할 수는 없지만 정보를 필요로하지 않을 수도 있기 때문에 추측해야만합니다. 일반적으로 ScoreDistribution은 예측의 확률을 계산하는 데 사용됩니다 ... randomForest, 간단히 말해서 투표 수를 계산하면됩니다. – Tridi