2017-12-06 13 views
1

나는 kafka 메시지를 읽고 AWS s3의 ORC 파일로 메시지를 덤핑하는 Flink 스트리밍 프로그램을 만들고 있습니다. Flink의 BucketingSink와 ORC 파일 작성자의 통합에 대한 문서는 발견되지 않았습니다. BucketingSink에서 사용할 수있는 그러한 ORC 파일 작성기 구현은 없습니다.Apache Flink에서 BucketingSink를 사용하여 ORC 파일에 쓰는 방법은 무엇입니까?

여기에 붙어있는 아이디어가 있습니까?

답변

1

나는 동의한다, ORC 파일을위한 작가는 BucketingSink 훌륭한 기능이 될 것이다. 그러나, 그것은 Flink에 아직 기여하지 못했습니다. 그런 작가를 직접 구현해야합니다.

필자는 Flink에 기여한다고 생각한다면 필자 커뮤니티가 필자의 설계 및 검토에 도움이 될 것이라고 확신합니다.

+0

Fabian에게 감사드립니다. 나는'StreamWriterBase'를 체크했고,이 클래스를 확장하고 싶습니다. [ORC 기록기] (https://github.com/apache/orc/blob/master/java/core/src/java/org/apache/orc/Writer.java)는 스트림을 허용하지 않습니다. 그래서 나는 Writer 인터페이스를 구현해야한다. 더 좋은 생각이 있습니까? – Freedom

+0

자세히 보지는 않았지만'StreamWriterBase' 인터페이스 대신'Writer' 인터페이스를 구현할 수 있어야합니다. 이 작성자는 ORC의 [core-java Writer] (https://orc.apache.org/docs/core-java.html)를 래핑합니다. –