sparkR을 처음 사용하고 sparkR 데이터 프레임을 열 기반 데이터 프레임 목록으로 분할하려고합니다.SparkR 데이터 프레임을 데이터 프레임 목록으로 분할
데이터에는 Sls_D(date), mdse_item_i(item id), co_loc_i(location id), traffic_ti_8_00, traffic_ti_9_00, traffic_ti_10_00, traffic_ti_11_00
의 10 억 개의 레코드가 있으며 각각 특정 시간에 트래픽이 없습니다.
데이터 스냅 샷 :
sls_d co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00
1 2016-10-21 1592 4694620 1 113 156 209
2 2016-10-21 1273 4694620 1 64 152 249
3 2016-10-21 1273 15281024 1 64 152 249
4 2016-10-21 1498 4694620 2 54 124 184
5 2016-10-21 1498 15281024 2 54 124 184
원하는 출력 :
sls_d co_loc_i mdse_item_i traffic_ti_8_00 traffic_ti_9_00 traffic_ti_10_00 traffic_ti_11_00
2016-10-21 4 4694620 3 67 145 283
Dataframes의 목록입니다. X의
d.2 = split(data.2.2,list(data.2.2$mdse_item_i,data.2.2$co_loc_i,data.2.2$sls_d))
오류 [IND [] K] : 추출 연산자 [ 또는 서브 세트()에있어서의 최초의 파라미터를 지원하지 않는 조건을 필터링 이외 식.
가 메모리 에러 R 결과를베이스에 sparkdataframe 변환 같이 R. 을베이스에 sparkDataframe 변환 떨어져 sparkR에서 이렇게 약 어떠한 방법이며 병렬 처리의 문제를 패배.
도움을 주시면 대단히 감사하겠습니다.
Answer 도움이되지? – desertnaut