spark-metadata (쪽 마루) 이외의 파일을 만들지 않는 구조화 된 스트리밍

출력 파일을 마루로 Google 클라우드 저장소에 쓰는 구조화 된 스트리밍 응용 프로그램을 실행하려고합니다. 나는 어떤 오류도 보지 않는다. 그러나 GCS 위치에 파일을 쓰지는 않습니다. 스파크 메타 데이터 폴더 만 보았습니다. 내가 어떻게 디버깅 할 수 있을지 생각해?spark-metadata (쪽 마루) 이외의 파일을 만들지 않는 구조화 된 스트리밍

windowDuration = "60 minutes"; 
    slideDuration = "10 minutes"; 
    data_2 = complete_data; 
    data_2 = data_2.withColumn("creationDt", functions.to_timestamp(functions.from_unixtime(col(topics+"."+event_timestamp).divide(1000.0)))); 
    data_2 = data_2 
      .withWatermark("creationDt","1 minute") 
      .groupBy(col(topics+"."+keyField),functions.window(col("creationDt"), windowDuration, slideDuration),col(topics+"."+aggregateByField)) 
      .count(); 

    query_2 = data_2 
      .withColumn("startwindow", col("window.start")) 
      .withColumn("endwindow", col("window.end")) 
      .withColumn("endwindow_date", col("window.end").cast(DataTypes.DateType)) 
      .writeStream() 
      .format("parquet") 
      .partitionBy("endwindow_date") 
      .option("path",dataFile_2) 
      .option("truncate", "false") 
      .outputMode("append") 
      .option("checkpointLocation", checkpointFile_2).start();

query_2.awaitTermination()

출처

2017-09-20 Passionate

스파크 버전은 무엇입니까 :

나는이 줄 불면과 예외 그냥 어딘가에 탐욕스럽게 먹게되는 것을 추측 무엇입니까? 웹 UI의 SQL 탭에는 무엇이 있습니까? 'spark-metadata' 폴더 아래에있는 것은 무엇입니까? 근원은 무엇입니까? 모든 집계? 더 많고, 더 ... –

Google dataproc에서 제공하는 Spark 버전 2.2를 사용 중입니다. Spark 메타 데이터 폴더에는 220,221 등의 숫자로 명명 된 많은 파일이 들어 있습니다.이 파일의 내용은 모두 "v1"입니다. 나는 귀중한 내용이 보이지 않는다. – Passionate

웹 UI는 어떻습니까? 아무것도? 값 비싼 내용은 쿼리가 실행 중임을 보여주기 때문에 매우 중요합니다. –

나는 문제가 .outputMode("append") 줄 믿습니다. GCS는 파일 시스템이 아니며 추가 모드를 지원하지 않습니다. https://github.com/GoogleCloudPlatform/bigdata-interop/blob/master/gcs/src/main/java/com/google/cloud/hadoop/fs/gcs/GoogleHadoopFileSystemBase.java#L1175

출처

2017-09-21 16:51:26 tix

spark-metadata (쪽 마루) 이외의 파일을 만들지 않는 구조화 된 스트리밍

답변

관련 문제