2017-12-03 31 views
2

프로그래밍 경험이 거의 없지만 통계 프로젝트에서 일하고 있으며 유닛의 포함 확률이 크기 (PPS)에 기반한 불균등 확률 샘플을 생성하려고합니다.크기 (PPS) 비례 확률 샘플에 비례를 취하는 방법 R?

는 기본적으로, 두 개의 데이터 세트가 있습니다

  • ds1는 미국의 상태를 나열하고 내가 노력하고있어 매개 변수는
  • ds2 각 국가의 인구 규모를 가지고 추정 할 수 있습니다.

내 질문 :

  1. 나는 각 주 (두 번째 세트)의 인구를 기반으로 포함 확률을 사용하여 첫 번째 데이터 집합에서 무작위 표본을 선택하는 R을 사용하고 싶습니다.

  2. R을 사용하여 이러한 일반화 불평등 확률 추정기 공식을 계산할 수있는 방법이 있습니까?

    Generalized Unequal Probability Estimator Estimated Variance of Generalized Unequal Probability Estimator

또한 단지 공식에 참고 : pi_i는 포함 확률과 pi_ij 공동 포함 확률이다.

+0

링크가 일시적입니다. 연결된 이미지의 텍스트를 참조하는 것이 좋지 않습니다. 무엇이 진술인지 : * "일반화 된 불평등 확률 추정가를위한 공식에 대한 링크"* 어쨌든 'y'는 무엇인가? : 독립 변수, 인구 또는 무엇? – smci

+0

안녕하세요, 미안하지만 몰랐습니다. 링크를 없애기 위해 편집했습니다. 또한 y는 관심 변수입니다. 도와 줘서 고마워! –

+0

문제 없습니다. 귀하의 두 번째 질문은 별도의 질문으로해야하며 SO에 관한 것이거나 적어도 훌륭한 응답을 얻지는 못합니다 - 자매 사이트 [CrossValidated] (https://statistics.stackexchange.com)에서 통계 질문을하는 것이 가장 좋습니다. – smci

답변

0

예,이를 가중 샘플링이라고합니다. 단순히 상태의 크기로 가중치를 설정하면 엄격하게 항상 1/sum(sizes)으로 정규화 할 필요조차 없습니다. 항상 좋은 습관입니다. 가중치 샘플링을 수행하는 방법을 보여주는 SO에 중복 게시물이 수없이 많습니다.

ds1, ds2 데이터 세트 중 join()을 수행해야한다는 점만 복잡합니다. 문제를 일으키는 경우 어떤 코드를 시도했는지 보여주십시오. dplyr 또는 data.table을 사용하는 것이 좋습니다.

두 번째 질문은 별도의 질문으로 질문 등 논외, 또는 적어도 큰 호응을받지 않습니다해야합니다 -에 대한 패키지가 CrossValidated

0

자매 사이트에서 통계적인 질문을하는 것이 가장 R - pps과 동일하고 설명서는 here입니다.

또한 documentation here 비트의 설문 조사라는 또 다른 패키지가 있습니다.

두 가지의 차이점을 잘 모르겠지만 직접 사용하지 않았습니다. 희망이 당신이 찾고있는 것입니다.