dplyr

0열

1답변

dplyr mutate : 동일한 돌연변이에서 다른 변수를 정의 할 때 돌연변이에 정의 된 변수를 사용합니다.

나는 약 800 만개의 레코드를 quantile (실제 응용 프로그램에서 decile)로 동일한 그룹으로 나누려고합니다. 각 그룹. 이것은 재현 가능한 예제가되기를 바랍니다 : require(Hmisc) # for weighted functions year <- c(10,10,20,20,30,30) hhinc99 <- c(101,102,301,301,

3열

2답변

dplyr inner_join을 수행하는 방법 col1> col2

표준 "col1"= "col2"조인을 사용하지 않을 때 dplyr 조인을 가져 오는 데 어려움이 있습니다. 다음은 내가 경험하고있는 두 가지 예입니다. 첫째 :이 코드 만 사용하여 SQL을 복제 할 때 나는 다음과 같은 얻을 library(dplyr) tableA <- data.frame(col1= c("a","b","c","d"), c

2열

2답변

데이터 프레임의 행 사이 선택

다소 시끄러운 데이터 세트로 작업 중이며 그룹 내에서 두 행의 데이터를 선택적으로 선택하거나 혼자있게 두는 것이 좋은지 궁금합니다. 논리별로 그룹별로 필터링하고 두 번째 열의 값에 따라 행을 비교하는 if-else 유형 제어 구조를 작성하려고합니다. 예 : I는 ID로 그룹화 할 Row ID V1 V2 1 1 blah 1.2 2 1 blah NA 3

3열

1답변

그룹화 된 날짜 변수 (예 : year_month)를 사용하는 ggplot

ggplot, tidyverse, lubridate에 대해 쉽게 작업해야한다고 생각하지만 우아한 해결책을 찾지 못하는 것 같습니다. 목표 : 연도 및 월별 집계/요약/그룹화 된 데이터로 막대 그래프를 만듭니다. #Libraries library(tidyverse) library(lubridate) # Data date <- sample(seq(as

2열

1답변

dplyr에서 if_else가 예기치 않게 작동합니다.

목표는 숫자 변수를 요소 변수로 정의 된 수준으로 변환하고 dplyr 함수 mutate를 사용하여 원래 데이터 집합에서 덮어 씁니다. 이 이전 question에 대한 대답에 따라는 나는 원본 데이터 셋의 변수를 덮어 관리,하지만 지금은 dplyr의 mutate_의 중첩 if_else는 다음 예에서와 같이 예기치 않게 행동한다 : 새로운에서 library(d

2열

1답변

dplyr 필터링 후 그룹 전체의 행 수

(필터링 후) 데이터 프레임의 각 그룹 수와 비율을 원합니다. 이 코드는 원하는 출력을 생성 library(dplyr) df <- data_frame(id = sample(letters[1:3], 100, replace = TRUE), value = rnorm(100)) summary <- filter(df, value > 0) %>%

1열

1답변

고려 그룹

하여 다음 데이터 프레임 다른 열에서 하나 개 이상의 변수의 선두로부터 기반으로 새 열을 만듭니다, ID <- c(1,1,1,2,2,3,3,3,3) A <- c("No","No","Yes","Yes","Yes","No","No","No","No") B <- c("Yes","Yes","Yes","Yes","Yes","No","No","No","No")

1열

1답변

dplyr을 사용하여 하위 그룹별로 백분율을 요약하는 더 나은 방법은 무엇입니까?

SO에 관한 비슷한 질문을 한 후, like here 나는 마침내 내가 원하는 결과물을 얻었지만 거기에 갈 수있는 더 좋은 방법이 있는지 궁금해 할 수 없습니다. 또한 파이프 연산자를 사용하여 관리자 및 제목 조합 반복을 제거하는 마지막 단계를 연결하는 방법이 있는지 궁금합니다. 재현 예 : 생각과 도움에 미리 library(dplyr) # Sample

1열

1답변

purr을 사용하여 중첩 데이터 프레임 열의 데이터를 기반으로하는 필터

중첩 데이터 프레임 열의 데이터를 기반으로 데이터 프레임의 행을 필터링하려고합니다. 다음의 예를 생각해 library(tidyverse) df <- structure(list(id = c(47L, 47L, 45L, 45L, 85L, 85L), src = c("bycity", "indb", "bycity", "indb", "bycity", "i

0열

2답변

는 dplyr

library(dplyr) ##activates the data.table library mydataWithWeeksAndWeights <- data_frame(ended = c("14/11/2016", "14/11/2016", "14/11/2016", "02/0