2017-05-08 5 views
0

dataproc 작업에 사용자 정의 job_id를 제공하는 데 사용할 수있는 플래그가 있습니까? 돼지 작업을 실행하려면이 명령을 사용하고 있습니다.pig/hive/spark 작업을 실행하기 위해 Google Dataproc 클러스터에 사용자 정의 작업 ID를 부여하십시오.

gcloud를 통해 Dataproc 작업이 제출 돼지 --cluster my_cluster --file my_queries.pig

내가 pyspark/하이브 작업을 제출하기 위해 유사한 명령을 사용합니다.

이 명령은 job_id를 독자적으로 만들고 나중에 추적하는 것은 어렵습니다.

답변

1

기본 REST API를 사용할 때 생성 된 jobid를 제공 할 수도 있지만 현재 gcloud dataproc jobs submit과 함께 제출할 때 자신의 jobid를 지정할 방법이 없습니다. 앞으로이 기능이 추가 될 것입니다. 즉, 일반적으로 사람들이 작업 ID를 지정하려고 할 때보다 복잡한 일치 표현식을 사용하여 목록을 작성하거나 다른 시점에 다른 종류의 표현식으로 나열된 작업 범주를 여러 개 가질 수 있기를 원합니다.

그래서 dataproc labels을 대신 사용하는 것이 좋습니다. 레이블은 이러한 종류의 사용 사례를 위해 특별히 고안되었으며 효율적인 조회를 위해 최적화되었습니다. 예 :

gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170508 ... 
gcloud dataproc jobs submit pig --labels jobtype=mylogspipeline,date=20170509 ... 
gcloud dataproc jobs submit pig --labels jobtype=mlpipeline,date=20170509 ... 

gcloud dataproc jobs list --filter "labels.jobtype=mylogspipeline" 
gcloud dataproc jobs list --filter "labels.date=20170509" 
gcloud dataproc jobs list --filter "labels.date=20170509 AND labels.jobtype=mlpipeline"