flume

5열

1답변

저는 임팔라를 flume과 함께 파일 스트림으로 사용하고 있습니다. 백엔드 0 : 문제는 그들이 임팔라 쿼리는 다음과 같은 메시지와 함께 실패 삭제 될 때 수로가 다음 .tmp 확장자와 임시 파일을 추가하고,이다 HDFS는 HDFS 파일 열기 실패 ://localhost:8020/user/hive/../FlumeData.1420040201733.tmp 오류

0열

1답변

페이 스북 데이터를 Hadoop HDFS로 스트리밍

Hadoop으로 소셜 미디어 데이터를 분석하고 싶습니다. 나는 flume을 사용하여 트위터 데이터를 사용자 정의 소스를 사용하여 hadoop로 스트리밍했지만 FB 데이터를 다운로드하기 위해 API를 사용할 수는 있지만 스트리밍을위한 아무 것도 찾지 못했습니다. flume 이외의 다른 도구를 사용할 수 있습니까? 누구든지 뭔가 제안 할 수 있습니까?

2열

1답변

Flume - 전체 파일을 Flume에서 이벤트로 간주 할 수 있습니까?

디렉토리에서 HDFS로 파일을 가져와야하는 유스 케이스가 있습니다. POC로서 Flume에서 소스, 싱크 및 채널을 지정한 간단한 디렉토리 스풀링을 사용 했으므로 제대로 작동합니다. 단점은 파일 크기와 다른 매개 변수를보다 잘 제어하기 위해 고유 한 폴더로 이동하는 여러 파일 형식에 대해 여러 디렉터리를 유지해야한다는 것입니다. 구성을 반복하면서도 쉽지만

1열

2답변

Flume - TwitterSource 언어 필터

다음과 같은 경우에 도움을 요청하고 싶습니다. (클라우 데라) I 현재 클라우 데라 CDH 5.1.2를 사용하고 있는데, I는 그것이 다음 porsts에서 설명하는 바와 같이 수조를 이용하여 트위터 데이터를 수집하려고 : http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-par

0열

1답변

Apache Flume 샘플링 속도

기록이 HDFS에 기록되기 전에 Flume에 대한 샘플링 속도를 지정할 수 있습니까? 어떤 flume sink를 설정했는지, 아니면 샘플링을 위해 Flume 인터셉터를 직접 작성해야합니까? Apache Flume 사용자 안내서 페이지에서 문서를 찾을 수 없습니다.

1열

1답변

Dir 's Flume to

/flume/events에서 HDFS로 flume API 또는 java API를 사용하여 하위 디렉토리와 파일 목록을 포함하는 DIR을로드하고 싶습니다. 나는 cloudera cdh5.1을 사용하고 있습니다. 이 점에 대해 제발 도와주세요. 내가 어떻게 섭취/하위 디렉토리와 파일을 포함하는 디렉토리를로드 코딩에 가고 싶습니다. 나는 수로 API를/자바 AP

4열

1답변

Distcp를 사용하는 Hadoop의 데이터 처리

distcp는 데이터의 내부/내부 클러스터 전송에 사용되는 것으로 알고 있습니다. distcp를 사용하여 로컬 파일 시스템에서 HDFS로 데이터를 수집 할 수 있습니까? 파일 : /// .... 을 사용하여 HDFS 외부의 로컬 파일을 가리킬 수 있지만 인터/인트라 클러스터 전송과 비교할 때 얼마나 안정적이며 빠르습니까?

1열

1답변

Flume 및 sqoop 제한

다른 컴퓨터에 테라 바이트의 데이터 파일이 있습니다. 일부 처리를 위해 중앙 집중식 시스템에서 수집하려고합니다. flume을 사용하는 것이 좋습니다. 같은 양의 데이터가 RDBMS에 hdfs에 넣고 싶습니다. sqoop을 사용하여 데이터를 trasffer로 전송하는 것이 좋습니다. 대안이 아닌 경우

0열

1답변

시스템의 맛을 클라이언트에서 수집 로그

로그를 안전하게 얻으려고합니다. 공개 도메인에 로그 (Windows/Linux 풍미)를 얻을 필요가있는 시스템이 있으며 Flume/FluentD와 같은 프레임 워크를 사용하려고합니다. 안전한 방법으로 해결할 수있는 방법이 있습니까?

1열

1답변

스풀링 디렉토리에서 flume을 사용하여 HDFS로 파일 이동

내 회사의 POC에 대해 작은 hado 클러스터를 구현 중입니다. Flume을 사용하여 파일을 HDFS로 가져 오려고합니다. 각각의 파일은이 (파일 당 1 "긴"라인) 같은 JSON 객체를 포함 { "objectType" : [ { JSON Object } , { JSON Object }, ... ] } "objectType의"는 유형 배열의 객체 (예