누군가 mgcv
을 mgcv
외부로 사용하는 것을 보는 것은 매우 흥미 롭습니다. 약간의 연구 끝에, 나는 당신을 실망시키기 위해 여기에 있습니다. 을 과 함께 사용하는 것은 적어도 현재의 지원이 caret
인 것은 좋지 않습니다.
하자 당신이 caret
를 사용하는 경우 나 그냥, 당신에게 몇 가지 기본적인 질문을
- 어떻게 원활하게 기능에 대한 매듭의 수뿐만 아니라, 스플라인 기반 클래스를 지정할 수 있습니까?
- 2D 평활 기능을 어떻게 지정할 수 있습니까?
te
또는 ti
으로 텐서 곱 스플라인을 어떻게 지정할 수 있습니까?
- 어떻게 평활화 매개 변수를 조정할 수 있습니까? 당신은
modForm <- caret:::smootherFormula(x)
라인을 참조 getModelInfo(model = "gam", regex = FALSE)$gam$fit
function(x, y, wts, param, lev, last, classProbs, ...) {
dat <- if(is.data.frame(x)) x else as.data.frame(x)
modForm <- caret:::smootherFormula(x)
if(is.factor(y)) {
dat$.outcome <- ifelse(y == lev[1], 0, 1)
dist <- binomial()
} else {
dat$.outcome <- y
dist <- gaussian()
}
modelArgs <- list(formula = modForm,
data = dat,
select = param$select,
method = as.character(param$method))
## Intercept family if passed in
theDots <- list(...)
if(!any(names(theDots) == "family")) modelArgs$family <- dist
modelArgs <- c(modelArgs, theDots)
out <- do.call(getFromNamespace("gam", "mgcv"), modelArgs)
out
}
:
당신이 caret::train
가 method = "gam"
와 함께 무엇을하고 있는지 알고는 피팅 루틴을 체크 아웃 할 경우? 그 라인은 핵심이며, 다른 라인은 모델 호출의 일상적인 구성입니다. 그래서, GAM 공식 caret
가 건설되는 것과 수표를 보자 : 한마디로
caret:::smootherFormula
function (data, smoother = "s", cut = 10, df = 0, span = 0.5,
degree = 1, y = ".outcome")
{
nzv <- nearZeroVar(data)
if (length(nzv) > 0)
data <- data[, -nzv, drop = FALSE]
numValues <- sort(apply(data, 2, function(x) length(unique(x))))
prefix <- rep("", ncol(data))
suffix <- rep("", ncol(data))
prefix[numValues > cut] <- paste(smoother, "(", sep = "")
if (smoother == "s") {
suffix[numValues > cut] <- if (df == 0)
")"
else paste(", df=", df, ")", sep = "")
}
if (smoother == "lo") {
suffix[numValues > cut] <- paste(", span=", span, ",degree=",
degree, ")", sep = "")
}
if (smoother == "rcs") {
suffix[numValues > cut] <- ")"
}
rhs <- paste(prefix, names(numValues), suffix, sep = "")
rhs <- paste(rhs, collapse = "+")
form <- as.formula(paste(y, rhs, sep = "~"))
form
}
를, 그것은 첨가제, 단 변량 부드러운을 만듭니다. 이것은 GAM이 처음 제안되었을 때의 고전적인 형태입니다.
이렇게하려면 이전에 나열한대로 mgcv
에 대한 상당한 양의 제어 권한을 잃게됩니다.
이를 확인하려면, 내가 귀하의 경우와 유사한 예를 구성하자 y ~ s(x, z) + a + b
:
set.seed(0)
dat <- gamSim(eg = 2, scale = 0.2)$data[1:3]
dat$a <- runif(400)
dat$b <- runif(400)
dat$y <- with(dat, y + 0.3 * a - 0.7 * b)
# y x z a b
#1 -0.30258559 0.8966972 0.1478457 0.07721866 0.3871130
#2 -0.59518832 0.2655087 0.6588776 0.13853856 0.8718050
#3 -0.06978648 0.3721239 0.1850700 0.04752457 0.9671970
#4 -0.17002059 0.5728534 0.9543781 0.03391887 0.8669163
#5 0.55452069 0.9082078 0.8978485 0.91608902 0.4377153
#6 -0.17763650 0.2016819 0.9436971 0.84020039 0.1919378
그래서 우리는 모델에 맞게하는 것을 목표로하고 있습니다. 데이터
y
은 가우스이지만, 이것은 중요하지 않습니다.
caret
이
mgcv
과 작동하는 방식에는 영향을 미치지 않습니다.
cv <- train(y ~ x + z + a + b, data = dat, method = "gam", family = "gaussian",
trControl = trainControl(method = "LOOCV", number=1, repeats=1),
tuneGrid = data.frame(method = "GCV.Cp", select = FALSE))
당신은 최종 모델을 추출 할 수 있습니다 :
fit <- cv[[11]]
그래서 사용하고 어떤 식?
참조? 그렇다 "첨가제, 단 변량"되는, 또한 기본으로 mgcv::s
의 모든 잎 : @ 李哲源 ZheyuanLi에 동의 bs = "tp"
, 기본 k = 10
등
기본하지만'캐럿 :: train' 회귀 또는 평활 스플라인을 허용하지 않습니다 공식 인수에서 기능을합니까? –
'method = "glm"'일 때'train '에 대한 수식 인자에서 스플라인이나 다항식 함수를 사용하는 데 어려움이 없습니다. –