2016-11-15 3 views
0

안녕하세요 누구든지 구조화 된 스트리밍을위한 새로운 API를 사용하여 flume 스트림을 읽는 방법을 알려줄 수 있습니다.Flume으로 구조화 된 스트리밍

예 : 스파크 2.1로

val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

답변

0
val flumeStream = FlumeUtils.createStream(streamingContext, [chosen machine's hostname], [chosen port]) for push based approach and 
val flumeStream = FlumeUtils.createPollingStream(streamingContext, [sink machine hostname], [sink port]) for pull-based approach 
1

는 스파크 카프카와 소켓 소스 파일만을 지원한다. 소켓 SOURCE는 디버깅 및 개발을위한 것이므로 생산 준비가되어서는 안됩니다. File과 Kafka 소스를 남깁니다.

따라서 유일한 옵션은 입니다. a) 데이터를 FLume에서 가져 와서 S3 파일로 덤프하십시오. 스파크는 S3 파일에서 데이터를 가져올 수 있습니다. 파일 소스가 작동하는 방식은 폴더를 감시하고 새 파일이 나타나면 마이크로 배치로로드합니다. b) Kafka 인스턴스에 이벤트 퍼널