1
출력 파일을 마루로 Google 클라우드 저장소에 쓰는 구조화 된 스트리밍 응용 프로그램을 실행하려고합니다. 나는 어떤 오류도 보지 않는다. 그러나 GCS 위치에 파일을 쓰지는 않습니다. 스파크 메타 데이터 폴더 만 보았습니다. 내가 어떻게 디버깅 할 수 있을지 생각해?spark-metadata (쪽 마루) 이외의 파일을 만들지 않는 구조화 된 스트리밍
windowDuration = "60 minutes";
slideDuration = "10 minutes";
data_2 = complete_data;
data_2 = data_2.withColumn("creationDt", functions.to_timestamp(functions.from_unixtime(col(topics+"."+event_timestamp).divide(1000.0))));
data_2 = data_2
.withWatermark("creationDt","1 minute")
.groupBy(col(topics+"."+keyField),functions.window(col("creationDt"), windowDuration, slideDuration),col(topics+"."+aggregateByField))
.count();
query_2 = data_2
.withColumn("startwindow", col("window.start"))
.withColumn("endwindow", col("window.end"))
.withColumn("endwindow_date", col("window.end").cast(DataTypes.DateType))
.writeStream()
.format("parquet")
.partitionBy("endwindow_date")
.option("path",dataFile_2)
.option("truncate", "false")
.outputMode("append")
.option("checkpointLocation", checkpointFile_2).start();
query_2.awaitTermination()
스파크 버전은 무엇입니까 :
나는이 줄 불면과 예외 그냥 어딘가에 탐욕스럽게 먹게되는 것을 추측 무엇입니까? 웹 UI의 SQL 탭에는 무엇이 있습니까? 'spark-metadata' 폴더 아래에있는 것은 무엇입니까? 근원은 무엇입니까? 모든 집계? 더 많고, 더 ... –
Google dataproc에서 제공하는 Spark 버전 2.2를 사용 중입니다. Spark 메타 데이터 폴더에는 220,221 등의 숫자로 명명 된 많은 파일이 들어 있습니다.이 파일의 내용은 모두 "v1"입니다. 나는 귀중한 내용이 보이지 않는다. – Passionate
웹 UI는 어떻습니까? 아무것도? 값 비싼 내용은 쿼리가 실행 중임을 보여주기 때문에 매우 중요합니다. –