내 데이터 세트는 다음과 같습니다. that 동일한 학교 유형이 같은 지역에 표시됩니다. 변수가있는 데이터 집합으로 끝낼 수있는 방법이 있다면 내가보고 싶은 무엇 은 다음과 같습니다 -School_name -total_this 년 = 같은 동네의 합에 대한 no_of_grads_this_year - total_last_year = 같은 이웃에 대해 no_o
저는 실험실 실험에서 생성 된 데이터 세트에서 현재 관찰이 두 배가되는 곳 (두 번 측정 됨)에서 작업하고 있습니다. 내가 관찰 된 개체의 ID, 결과의 value,이 객체의 type하고 (내 말은 할 +120 다른 범주, 문자 및 숫자 변수)를 측정 한 hour. 여기에 단순화 된 데이터 프레임은 다음과 같습니다 library(dplyr)
A <
sparklyr의 클러스터링 문제를 해결하기 위해 노력하고 있습니다. 훈련 세트의 변수 중 많은 부분이 서로 다른 척도로 측정되므로 순서에 따라 다릅니다. 모범 사례에 따라 데이터를 확장하고 가운데에 맞추려고합니다. X를 임의의 변수, μ = 평균 및 σ = 표준 편차로 표현하는 가장 일반적인 표현식 (X - μ)/σ가 여러 가지 있습니다. 나는 X = 무
타임 스탬프 (정렬 된) 관측치가있는 데이터 프레임이 있습니다. 변수의 값을 필터링하고 변수 조건을 충족시키지 않아도 주변 (상황에 맞는) 관찰을 얻을 수있는 방법이 있습니까? 편집 : 나는 현재 +는 납과 지연을 추가하는 조건으로 일부를 사용하고 있지만, 나는 그것을 할 수있는 가장 효율적인 방법입니다 확실하지 않다 : df <- subset(df, va
아래 예에서는 vals_int에 가장 가까운 value이 어느 것인지 확인하려고 시도하고 있습니다. id입니다. 나는이 문제를 sapply()을 사용하여 다음과 비슷한 문제를 해결할 수 있지만 sapply() 부분이 dplyr에 다른 함수로 수행 될 수 있는지 궁금해합니다. 메서드와 출력을 dplyr 패키지의 일부 기능을 사용하여 재생할 수 있다면 정말로
각 확인란이 표시기 변수 인 설문 조사에서 매우 지저분한 데이터 집합이 있습니다. 따라서 M/F를 항목으로하여 성별 (또는 인종)을 변수로 사용하는 대신 gender_m과 지표가있는 gender_f 열이 있습니다. 간체 예 : df <- tribble(
~id, ~gender_m, ~gender_f,
#--|----------|-------
아래 코드를 실행하십시오. "patients $ time"열에 시간 소인이 표시됩니다. 첫 번째 행의 값이 "2017-01-02 11:41:53"이고 226 번째 행의 값이 "2017-08-07 09:06:07"이라고 두 번에 걸쳐 모든 레코드를 가져 오려고합니다. 나는 기본적으로이 두 시간 사이에 모든 기록을 얻고 싶습니다. dbGetquery 시도했지만
나는 "confidence_table"이라는 명칭을 가지고 있습니다. 누구도 왜 작동하지 않는 mutate 동사를 사용하여 새 열을 추가하려고하면 알 수 있습니까? # A tibble: 12 x 3
# Groups: Age [2]
Age Condition Prop
<fctr> <fctr> <dbl>
0 old 0.73993056