내 기존 프로젝트는 kafka-spark-cassandra입니다. 이제 gcp 계정을 가지고 있고 spark 작업을 dataproc로 마이그레이션해야합니다. 내 기존 스파크 작업에서 masterip, memory, cores 등과 같은 매개 변수는 리눅스 쉘 스크립트에 의해 트리거되고 새로운 sparkConf를 생성하는 명령 행을 통해 전달됩니다. 발의 c
내 문제는 내 pyspark 작업이 이 아니고이 병렬로 실행된다는 것입니다. 코드 및 데이터 형식 : 내 PySpark는 (분명히 간체)이 같이 보입니다은 : class TheThing:
def __init__(self, dInputData, lDataInstance):
# ...
def does_the_thing(self):
나는 스칼라 2.11로 만든 Dataproc에 스파크를 사용하는 방법을 찾고 있어요. 내 일자리가 ~ 10 BigQuery 테이블을 가져 오기 때문에 2.11을 사용하고 새로운 리플렉션 라이브러리를 사용하여 해당 객체를 사례 클래스에 매핑합니다. (스칼라 2.11에서만 수정 된 새로운 리플렉션 클래스와 동시성에 대한 버그가 있습니다.)이 문제를 해결하기 위
google dataproc의 드라이버 스파크 클래스 패스에 구성 파일을 추가해야합니다. --files 옵션을 사용하려고 시도했지만 gcloud dataproc jobs submit spark이지만 작동하지 않습니다. Google dataproc에서이를 수행 할 수있는 방법이 있습니까?
Google은 대용량 데이터 분석을 위해 GoogleCloudPlatform을 사용하고 있습니다. 처리를 위해 Google은 현재 google cloud dataproc & spark-streaming을 사용하고 있습니다.는 우리는 이들의의 설정을 위해 Dr.Elephant 등 신경절, 흑연, 같은 일부 모니터링 유틸리티를 사용하여 작업의 성능을 확인하고
Google은 빅 데이터 분석을 위해 GoogleCloudPlatform을 사용하고 있습니다. 처리를 위해 Google은 현재 google cloud dataproc & spark-streaming을 사용하고 있습니다. REST API를 사용하여 Spark 작업을 제출하고 싶지만 api-key를 사용하여 URI를 호출 할 때 아래 오류가 발생합니다! {