2017-11-13 2 views
-1

합리적으로 큰 데이터 세트 (5 천만 행 x 6 열)와 2 개의 열에는 1 열이 다른 열의 하위 집합 인 반복 값이 있습니다. 다음과 같이데이터 프레임의 반복 하위 집합의 고유 한 값 추출

예를 들어

의 dataframe을 다음과 같이 enter image description here

가 나는 dataframe을 좀하고 싶습니다 :

enter image description here

나는 위의 예를 들어 다음과 같은 코드를 사용했습니다 :

DISP < - 독특한 (mtcars의 $의 DISP) CYL < - 독특한 (mtcars $ CYL)

new_data < - data.frame (1 : 길이 (DISP), 1 : 길이 (DISP)) new_data $으로의 DISP < - 대

을 DISP (I (1) : 길이 (DISP)) {

new_data $ CYL [i]를 < - mtcars $ CYL은 }

을 [GREP은 (DISP는 [I], $ DISP를 mtcars)]하지만 난 (큰 데이터 세트를 통해 그것을 복제려고 할 때이 작동하지 않습니다 내 컴퓨터가 가장 강력하지 않기 때문에 RAM이 문제 일 수 있습니다.)

내 질문에 큰 데이터 세트에 대해 이와 동일한 연습을 수행하는 더 좋은 방법이 있습니까?

+3

A가 [mcve] –

+0

당신이 필요로하는 입력하십시오 df1에서 df2로가는 방법을 명확하게 설명합니다. 모든 disp와 cyl 콤보 만 원하십니까? 독특한 차 정보를 한 줄에 넣고 싶습니까? 귀하의 질문은 명확하지 않습니다. – leeum

+0

난 그냥 모든 고유의 disp & cyl 콤보가 필요합니다 – sacpop

답변

0

내게는 모든 고유 한 disp 및 cyl 콤보가 필요합니다. 이를 위해, 여기에 내가 추천하는 것입니다 :

DF :

car  cyl  disp 
Ford  32   322 
Ford  32   322 
Mazda  12   212 

- 코드 :

library(dplyr) 
output <- df %>% group_by(cyl,disp) %>% 
summarise(car_name = paste(car, collapse = ",")) 

출력 :

cyl  disp  car 
32  322  Ford,Ford 
12  212  Mazda 
+0

감사합니다! 필요에 따라 정확하게 해결했습니다. – sacpop