7

의 영향에 따라 내가 아래에 언급 한 바와 같이 드라이버의 여행 정보가 데이터 세트를 가지고있다. 내 목표는 운전자가 실어가는 하중과 운전하는 차량을 고려한 새로운 주행 거리 또는 조정 된 주행 거리를 찾는 것입니다. 마일리지와 짐 사이에는 음의 상관 관계가 있다는 것을 발견했기 때문입니다. 따라서 더 많은 짐을 실어 날수록 더 적은 마일리지를 적립 할 수 있습니다. 또한 차량의 유형이 성능에 영향을 미칠 수 있습니다. 어떤면에서 우리는 마일리지를 정상화하려고 노력하고 있습니다. 따라서 무거운 짐이 주어지고 그로 인해 더 적은 마일리지를 얻게되는 운전자는 마일리지로 처벌받지 않을 수도 있습니다. 은 지금까지 나는 마일리지와 드라이버가 전달되는 하중 사이의 관계를보기 위해 선형 회귀 분석 및 상관 관계를 사용했다. 상관 관계는 -.6이었다. 종속 변수는 Gal 당 마일이고 독립 변수는 하중과 차량입니다.기계 학습 : 정규화 대상 VAR는 독립적 인 VAR

Drv Miles per Gal Load(lbs) Vehicle 
A  7   1500 2016 Tundra 
B  8   1300 2016 Tundra 
C  8   1400 2016 Tundra 
D  9   1200 2016 Tundra 
E  10   1000 2016 Tundra 
F  6   1500 2017 F150 
G  6   1300 2017 F150 
H  7   1400 2017 F150 
I  9   1300 2017 F150 
J  10   1100 2017 F150 

결과는 다음과 같을 수 있습니다.

Drv Result-New Mileage 
A 7.8 
B 8.1 
C 8.3 
D 8.9 
E 9.1 
F 8.3 
G 7.8 
H 8 
I 8.5 
J 9 

지금까지 나는이 점수를 정규화하기 위해 LR의 슬로프를 사용해야하는 것에 대해 회의적입니다. 접근에 대한 다른 피드백이 도움이 될 것입니다.

우리의 궁극적 인 목표는로드 차량의 영향 계정을 고려하여 갤런 당 마일에 따라 드라이버를 평가하는 것입니다.

감사 제이

+0

최종 목표는 무엇입니까? 1 갤런 당 마일에 대한 하중의 영향을 고려하기를 원한다면, 미터당 갤런 당 마일을 사용하지 않는 것이 어떻습니까? – pault

+0

Hi Pault! 우리의 최종 목표는 운전자가 지니고있는 하중의 영향을 고려한 갤런 당 조정 마일을 제공하는 것입니다. 예를 들어 LR을 사용하여 하중을 사용하여 MPG를 예측하면 예측 값과 실제 값을 사용할 수 있습니다. 기본적으로 운전자가 거대한 하중을 지니고 있고 그 때문에 운전자가 저소음을 얻으면 우리는 그들에게 신용을주고 싶습니다. 우리의 궁극적 인 목표는 MPG를 기반으로 운전자의 순위를 매기는 것입니다. – learnlearn10

+0

최종 목표가 무엇인지 아직 명확하지 않습니다. 새로운 조정 된 mpg 측정 항목은 어떻게 평가합니까? 좋은 모델을 구축했는지 어떻게 알 수 있습니까? 먼저 성공을 측정하는 방법을 정의해야합니다. 그 또는 더 이상의 맥락이 없으면, LR을 사용하는 것이이 경우에 과도한 것이라고 생각합니다. – pault

답변

4

"점수를 정상화 '하는 방법에는 여러 가지가있을 수 있습니다, 그리고 최고의 하나는 정확히 (질문에서 명확하지 않은) 달성하려고하는지에 크게 의존 할 것이다. 그러나, 그렇게 말하면서 간단하고 실제적인 접근 방법을 제안하고자합니다. 유토피아 경우 시작

는 : - 차량 종류에 따라 부하와 MPG 사이 깔끔한 선형 관계를 나타내는, 즉 당신은 많은 데이터를 완벽하게 선형 그것의 모든 있었다 말한다. 이 경우 약간의 부하가 주어지면 차량 유형별 예상 MPG에 대한 강력한 예측을 얻을 수 있습니다. 실제 MPG를 예상 값과 비교할 수 있으며 비율에 따라 "점수"를 계산할 수 있습니다. 실제 MPG/예상 MPG.

는 실질적으로하지만, 데이터를 완벽 결코 없다. 따라서 사용 가능한 데이터를 기반으로 모델을 작성하고 예측을 할 수 있지만 점수 산정을 기준으로 포인트 추정을 사용하는 대신 신뢰 구간을 사용할 수 있습니다. 예를 들어, 주어진 MPG와 일부 부하는 9-11 MPG 사이이며 95 % 신뢰도입니다. 경우에 따라 (더 많은 데이터를 사용할 수 있거나 선형적인 경우) 신뢰 구간이 좁을 수 있습니다. 다른 경우에는 더 넓어집니다.

MPG가 예상 한 범위를 벗어난 경우에만 조치를 취할 수 있습니다 (예 : "처벌").

편집 : (R 코드) 그림은 : ​​

#df contains the data above. 

#generate a linear model (note that 'Vehicle' is not numerical) 
md <- lm(data=df, Miles.per.Gal ~ Load + Vehicle) 

#generate predictions based on the model; for this illustration, plotting only for 'Tundra' 
newx <- seq(min(df$Load), max(df$Load), length.out=100) 
preds_df <- as.data.frame(predict(md, newdata = data.frame(Load=newx, model="Tundra")) 

#plot 
# fit + confidence 
plt <- ggplot(data=preds_df) + geom_line(aes(x=x, y=fit)) + geom_ribbon(aes(x = x, ymin=lwr, ymax=upr), alpha=0.3) 
# points for illustration 
plt + geom_point(aes(x=1100, y=7.8), color="red", size=4) +geom_point(aes(x=1300, y=4), color="blue", size=4) + geom_point(aes(x=1400, y=9), color="green", size=4) 
따라서이 데이터를 기반으로

enter image description here

, 빨간 운전자의 연료 소비 (1100 부하 7.8 MPG)는 예상보다 훨씬 더 나쁘다 청색 (1300 부하의 9 MPG)은 예상 범위 내에 있고 녹색 드라이버 (1400 부하의 9 MPG)는 예상보다 나은 MPG를가집니다. 물론 데이터의 양과 적합성에 따라 더 정교한 모델을 사용할 수도 있지만 아이디어는 동일하게 유지 될 수 있습니다.

편집 2 :를 사용 하나에 (높은 MPG이 아닌 더, 더 나은로)

또한, "점수"드라이버에 대한 코멘트에 다시 질문, 합리적인 제도가 될 수있다 녹색과 적색 사이의 호환 문제를 해결 비율 대 예측 포인트 또는 표준 편차 (즉, 표준 편차에서 기대치와의 차이)로 정규화하십시오. 그래서 예. 위의 예에서 부하 1250이있는 라인보다 10 % 높은 드라이버는 부하가 1500 인 라인보다 10 % 높은 드라이버보다 점수가 높습니다. 불확실성이 더 크기 때문에 (10 %가 "예상"의 범위에 더 가깝습니다 ").

+0

Etov에게 감사드립니다! 지금까지 우리가 취한 접근 방식입니다. 우리는 하중을 사용하여 MPG를 예측하기 위해 LR을 사용했습니다. 이 접근법이 옳은지 또는 더 나은 방법이 있는지 확인하기 위해이 질문을 게시했습니다. 우리의 경우 우리는 범주 형의 다른 변수 (Vehicle)를 가지고 있습니다. 위의 데이터를 제공했습니다. 우리는 어떻게 점수를 정상화하고 더 나은 차량을 운전하는 운전자에게 벌칙을 줄 수 있습니까? Naive Bayes를 사용하여 MPG와 차량의 관계를 확인해야합니까? – learnlearn10

+0

LR은 범주 별 변수를 처리 할 수 ​​있습니다. 각 차량 유형에 대해 서로 다른 기울기를 생성하는 것과 비슷합니다. 어쨌든, 질문은 - 어떤면에서 "더 좋은 방법"입니까? 너 뭐야? LR 접근법에서 당신의 목표와 관련하여 차선책으로 보이는 것은 무엇입니까? – etov

+0

주요 목적은 mpg를 개선하는 것입니다. 이것은 운전자 행동 (속도, 제동), 경로 (마일, 교통, 날씨), 적재 및 장비와 같은 많은 요소에 달려 있습니다. 드라이버의 경로는 정적이므로 마일, 교통 및 날씨를 사용하여 클러스터를 만들었습니다. 모든 클러스터에는 별도의 모델이 있습니다. 드라이버 통계는 클러스터 내에서 서로 비교되고 채점됩니다. 데이터에서 우리는 부하가 mpg 및 부작용이 적은 것으로 확인했습니다. 따라서 운전자가 거대한 하중을 들고 오래 된 차량을 운전하는 경우, 우리는 mpg의 관점에서 신용을 부여하고자합니다. – learnlearn10

1

당신이 찾고있는 용어는 Decorrelation입니다. MPG와로드를 상관 시키려하고 있습니다. 이를 수행하는 한 가지 방법은 이전과 같이 선형 모델을 학습하고 원래 MPG 값에서이 모델의 예측을 뺀 다음 선형 모델에 따라 Load의 영향을 제거하는 것입니다. Wikipedia articel은이를 "선형 예측 코더"라고 표시합니다. 공상을 원한다면, MPG와 Load가 실제로 선형 관계가 없다고 생각하면 더 복잡한 모델로 같은 생각을 시도 할 수 있습니다.