2017-09-26 5 views
0

하둡 초자연적 인 내용입니다.이 자습서를 사용하여 https://acadgild.com/blog/streaming-twitter-data-using-flume/ 트윗을 캡처합니다. 그것은 트윗을 스트림Flume이 트위터 스트림에 대한 키워드를 허용하지 않습니다.

TwitterAgent.sources = Twitter 
TwitterAgent.channels = MemChannel 
TwitterAgent.sinks = HDFS 
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource 
TwitterAgent.sources.Twitter.consumerKey=xxxx 
TwitterAgent.sources.Twitter.consumerSecret=xxxx 
TwitterAgent.sources.Twitter.accessToken=xxxx 
TwitterAgent.sources.Twitter.accessTokenSecret=xxxx 

TwitterAgent.sources.Twitter.keywords= #canpoli 

TwitterAgent.sinks.HDFS.channel=MemChannel 
TwitterAgent.channels.MemChannel.capacity=10000 
TwitterAgent.sinks.HDFS.type=hdfs 
TwitterAgent.sinks.HDFS.hdfs.path=hdfs:/xxxx/user/flume/tweets 
TwitterAgent.sinks.HDFS.hdfs.fileType=DataStream 
TwitterAgent.sinks.HDFS.hdfs.writeformat=Text 
TwitterAgent.sinks.HDFS.hdfs.batchSize=1000 
TwitterAgent.sinks.HDFS.hdfs.rollSize=0 
TwitterAgent.sinks.HDFS.hdfs.rollCount=10000 
TwitterAgent.sinks.HDFS.hdfs.rollInterval=600 

TwitterAgent.channels.MemChannel.type=memory 
TwitterAgent.channels.MemChannel.capacity=10000 
TwitterAgent.channels.MemChannel.transactionCapacity=1000 

TwitterAgent.sources.Twitter.channels = MemChannel 
TwitterAgent.sinks.HDFS.channel = MemChannel` 

잘, 제대로 내 원하는 디렉토리에 저장하지만 내 키워드 필터링없이 모든 스트리밍 할 것 : 여기 내 flume.conf 파일입니다. 해시 태그가있는 경우를 제외하고 전 세계의 트윗을받습니다.

무슨 문제 일 수 있습니까?

답변

1

먼저 빈 목록을 제공했기 때문에 모든 해시 태그를 허용합니다.

# 문자는 주석이므로 equals 뒤의 모든 내용은 무시 된 것으로 간주됩니다. 적어도 그것이 그것이 파싱되는 방법이라고 생각합니다.

#을 사용하지 않는 사이트에 연결 했으므로 작업하기 전에 해당 튜토리얼을 따라야합니다.

두 번째로, 해당 소스는 실험적으로 간주되며 키워드는 언급하지 않습니다.

https://flume.apache.org/FlumeUserGuide.html#twitter-1-firehose-source-experimental

이 코드는 거의 정확하게 확인할 경우, 다른 소스 클래스있다 키워드의 설정에 주석을 포함하고있다 클라우 데라에서이 예처럼 보인다.

TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource 

https://github.com/cloudera/cdh-twitter-example/blob/master/flume-sources/flume.conf

당신은 JAR에,이 패키지를 그 자바 코드를 다운로드하고, 수로 lib 디렉토리

+0

내가 해시 태그를 제거에 배치 할 필요가 나는 같은 결과를 얻을. 가져 오는 모든 트윗에는 키워드가 하나도 포함되어 있지 않습니다. – JLA

+0

제공된 예제를 실행하면 어떻게됩니까? –

+0

똑같은 일이 발생합니다. – JLA