2017-10-03 600 views
0

나는 구급차 사건 데이터를 분석 중입니다. 이 데이터 세트는 3 년 동안 약 250000 건의 사건을 처리합니다. 예비 분석은 사건 분포가 인구 분포와 관련이 있음을 나타냅니다. spatstat를 사용하여 점 프로세스 모델을 피팅하는 것은 이에 동의하며 부분 잔차 플롯에서 폭넓게 일치합니다. 그러나이 추세는 "사회 시간"즉 금요일, 토요일 밤, 공휴일 동안이 인구 관련 추세와 다른 것으로 생각됩니다.예측을위한 포인트 프로세스 모델 사용

데이터의 하위 집합을 가져 와서 전체 그림과 어떻게 다른지 확인하고 싶습니다. 데이터의 하위 세트에 내재 된 포인트 수가 적기 때문에 강도의 차이를 어떻게 설명 할 수 있습니까?

또는 실제 그림에 맞는 모델을 직접 사용할 수있는 방법이 있습니까?

개인 정보 문제가 있기 때문에 데이터를 제공하기가 어렵고 데이터 세트의 크기에 따라 상황을 시뮬레이션하기가 어렵습니다. 나는 어떤 의미로 통계 학자가 아니기 때문에 여기에서 약간의 낙담을하고 있습니다. 나는
"Spatial Point Patterns Methodology and R with Applications"을 매우 유용하게 사용하고 있습니다.

나는 육안 검사에 의해 밀도 표면

250k_pts.ppp <- ppp(the_ambulance_data x and y, the_window) 
1.3m_census_pts <- ppp(census_data x and y, the_window) 

최저 대역폭은 bw.scott 될 듯 .. 지금까지 나의 방법론을 설명하기 위해 의사와 함께 노력할 것입니다. 이것은 점의 밀도 표면에 맞추기 위해 사용되었습니다.

the_ambulance_data %>% group_by(day_of_week, hour_of_day) %>% 
select(x_coord, y_coord) %>% nest() -> nested_day_hour_pts 
: 부분 잔차 플롯

inc_density <- density(250k_pts.ppp, bw.scott) 
pop_density <- density(1.3m_census_pts, bw.scott) 

fit0 <- ppm(inc_density ~ 1) 
fit_pop <- ppm(inc_density ~ pop_density) 

partials <- parres(fit_pop, "pop_density") 

내가 다음 일을 생각하고 무엇

.. 선형 맞춤와 계약 '흔들림'의 일부 지역에 광범위하게 받아 들일 것을 보여준다

이러한 목록 항목 중 하나를 취하여 ppp를 생성하면 (예 : fri_2300hr_ppp);

fri23.den <- density(fri_2300hr_ppp, bw.scott) 
fit_fri23 <- fit(fri_2300hr_ppp ~ pop_density) 

어떻게하면이 ppp 또는 밀도를 더 넓은 모델과 비교할 수 있습니까? 분산, 클러스터링과 같은 특성 테스트를 수행 할 수 있습니다 ... fit_popfit_fri23의 부분 나머지를 비교할 수 있습니까?

밀도의 점 수에 대한 영향을 제어하려면 어떻게해야합니까? 즉, 하위 집합에 250,000 포인트 대 8000 포인트가있을 수 있습니다. 밀도 표면의 quantile을 생각하고 있나?

+0

이것은 스택 오버 플로우에 적합한 특정 프로그래밍 질문처럼 보이지 않습니다. 통계 방법에 대한 일반적인 질문이있는 경우 [stats.se] 또는 [datascience.se] 또는 지리적 데이터에만 해당되는 경우 [gis.se]에 질문해야합니다. – MrFlick

+0

나는 OP가 예제 데이터와 그가 지금까지했던 것을 보여주는 몇 줄의 코드 만 추가하면되므로 문제를 이해하고 R/spatstat의 프로그래밍 문제로 볼 수 있습니다. 반면에 당신은 맞을 수 있고 Cross Validated가 더 적합 할 것입니다. 어쨌든 (가짜/부분 집합) 데이터와 맞는 모델을 사용하는보다 구체적인 예가 도움이 될 것입니다. –

답변

1

관심 분야의 하위 집합/범주를 나타내는 구급차 데이터에 마크를 부착하십시오 (예 : '통화 중'과 '통화 중'). 비공식 또는 비모수 분석의 경우 relrisk과 같은 도구를 사용하거나 split.ppp을 사용하여 여러 유형의 점을 분리 한 후 density.splitppp을 사용하십시오. 공식적인 분석을 위해서 (예를 들어 샘플 크기 등을 고려할 때), 동일한 데이터에 여러 후보 모델을 맞춰야한다. 하나의 모델은 바쁜/불규칙한 효과가 있고 다른 모델은 그러한 효과가 없다. 공식적으로 존재하는지 여부를 테스트하기 위해 anova.ppm을 사용한다. 바쁜/불쾌한 효과. 언급 된 책의 14 장을보십시오.