0
저는 GenericUDF를 확장하는 HiveUDF를 가졌습니다. spark.sql을 통해 udf를 호출하면 정확한 결과를 얻었지만 초기화 된 메소드는 여러 번 호출됩니다.GenericUDF의 초기화 된 메소드가 여러 번 호출되었습니다
왜 이런 일이 벌어지고 있는지 이해할 수 없습니까?
저는 GenericUDF를 확장하는 HiveUDF를 가졌습니다. spark.sql을 통해 udf를 호출하면 정확한 결과를 얻었지만 초기화 된 메소드는 여러 번 호출됩니다.GenericUDF의 초기화 된 메소드가 여러 번 호출되었습니다
왜 이런 일이 벌어지고 있는지 이해할 수 없습니까?
여기에 스파크 버그가있는 것으로 보입니다 https://issues.apache.org/jira/browse/SPARK-17728.
udf를 적용하기 전에 데이터를 캐시() 할 수 있습니다.