SparkR DataFrame을 교육용으로, 그리고 깔끔한 테스트 용으로 두 개의 하위 세트로 나누고 싶습니다. R에서이 작업을 수행하는 일반적인 방법은 행의 배열 색인을 생성하고 배열을 새 배열로 샘플링 한 다음 하위 집합에 있거나 포함되지 않은 행을 기반으로 데이터를 부분 집합하는 것입니다. 예 : seed=42 # of course
index <-
Debian OS와 함께 Docker 컨테이너에 SparkR을 설치하려고합니다. R 콘솔에서 I 입력하는 명령은 다음과 같습니다 Downloading GitHub repo amplab-extras/[email protected]
from URL https://api.github.com/repos/amplab-extras/SparkR-pkg/zipball/
R에서 1 : 10000 데이터를 생성했습니다. SparkR을 사용하여 1 : 10000 데이터로 RDD를 만들었습니다. SparkR을 사용하여 데이터 < 10을 인쇄하도록 필터링하려고합니다. 나는 SparkR을 배우고 있으며 어떤 도움을 주셔서 감사합니다. 중복으로 표시하기 전에이 질문을주의 깊게 읽으십시오. 마지막에는 데이터 프레임 작업을 좋아하는 사람
SPARK_LOCAL_IP를 "127.0.0.1"로 설정하고 포트가 사용되고 있는지 확인하려고했습니다. 다음은 전체 오류 텍스트입니다. Launching java with spark-submit command /usr/hdp/2.4.0.0-
169/spark/bin/spark-submit "sparkr-shell" /tmp/RtmpZo44il/b