S3 버킷의 상단에서 실행되는 AWS에서 EMR 클러스터 (스팟 인스턴스 포함)를 호스팅하게됩니다. 데이터는이 버킷에 ORC 형식으로 저장됩니다. 그러나 우리는 동일한 데이터를 읽는 일종의 샌드 박스 환경뿐만 아니라 R을 사용하기를 원합니다.R S3의 ORC 파일 읽기
올바르게 작동하는 aws.s3 (cloudyr) 패키지가 있습니다. 문제없이 csv 파일을 읽을 수 있지만 orc 파일을 읽을 수있는 것으로 변환 할 수 없습니다.
두 가지 옵션은 내가 온라인 founnd 했다 - SparkR - Windows 시스템에서 problamatic dataconnector을했다 설치 이후 dataconnector (Vertica의)
, 나는 SparkR를 설치하고 나는 (지금 R 로컬 orc.file를 읽을 수 있어요 내 컴퓨터의 로컬, orc 파일이 내 컴퓨터의 로컬). 그러나 내가 read.orc를 시도하면 기본적으로 내 경로가 로컬 경로로 정규화됩니다. 소스 코드에 파고, 나는 다음과 같은 실행 :
sparkSession <- SparkR:::getSparkSession()
options <- SparkR:::varargsToStrEnv()
read <- SparkR:::callJMethod(sparkSession, "read")
read <- SparkR:::callJMethod(read, "options", options)
sdf <- SparkR:::handledCallJMethod(read, "orc", my_path)
을하지만 다음과 같은 오류를 얻을 :
이Error: Error in orc : java.io.IOException: No FileSystem for scheme: https
누군가가 오크 파일을로드 할 수있는 다른 방법을 가리키는이 문제를 또는 하나 좀 도와 수를 S3에서?
[tag : vertica]라고 태그했습니다. 이미 R을 사용하여 Vertica의 데이터를 읽었습니까? ORC/S3 부분에 머물러 있습니까? –
R 패키지 dataconnector가 Vertica 제품이기 때문에 나는 vertica에 태그를 붙였습니다. 사실 나는 R을 사용하여 R 자체를 읽고 ORC 부분에 붙어 있습니다 (S3에서 읽기는 읽을 수있는 형식이 아닙니다). –
Vertica의 어떤 버전입니까? (ORC 통합은 지난 몇 달 동안 활발히 진행되어 왔습니다.) ORC -> Vertica를 도울 수 있지만 R 부분에 대해서는 아무것도 모릅니다. 그게 도움이 되니? –