저는 임팔라를 flume과 함께 파일 스트림으로 사용하고 있습니다. 백엔드 0 : 문제는 그들이 임팔라 쿼리는 다음과 같은 메시지와 함께 실패 삭제 될 때 수로가 다음 .tmp 확장자와 임시 파일을 추가하고,이다 HDFS는 HDFS 파일 열기 실패 ://localhost:8020/user/hive/../FlumeData.1420040201733.tmp 오류
Hadoop으로 소셜 미디어 데이터를 분석하고 싶습니다. 나는 flume을 사용하여 트위터 데이터를 사용자 정의 소스를 사용하여 hadoop로 스트리밍했지만 FB 데이터를 다운로드하기 위해 API를 사용할 수는 있지만 스트리밍을위한 아무 것도 찾지 못했습니다. flume 이외의 다른 도구를 사용할 수 있습니까? 누구든지 뭔가 제안 할 수 있습니까?
디렉토리에서 HDFS로 파일을 가져와야하는 유스 케이스가 있습니다. POC로서 Flume에서 소스, 싱크 및 채널을 지정한 간단한 디렉토리 스풀링을 사용 했으므로 제대로 작동합니다. 단점은 파일 크기와 다른 매개 변수를보다 잘 제어하기 위해 고유 한 폴더로 이동하는 여러 파일 형식에 대해 여러 디렉터리를 유지해야한다는 것입니다. 구성을 반복하면서도 쉽지만
다음과 같은 경우에 도움을 요청하고 싶습니다. (클라우 데라) I 현재 클라우 데라 CDH 5.1.2를 사용하고 있는데, I는 그것이 다음 porsts에서 설명하는 바와 같이 수조를 이용하여 트위터 데이터를 수집하려고 : http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-par
/flume/events에서 HDFS로 flume API 또는 java API를 사용하여 하위 디렉토리와 파일 목록을 포함하는 DIR을로드하고 싶습니다. 나는 cloudera cdh5.1을 사용하고 있습니다. 이 점에 대해 제발 도와주세요. 내가 어떻게 섭취/하위 디렉토리와 파일을 포함하는 디렉토리를로드 코딩에 가고 싶습니다. 나는 수로 API를/자바 AP
distcp는 데이터의 내부/내부 클러스터 전송에 사용되는 것으로 알고 있습니다. distcp를 사용하여 로컬 파일 시스템에서 HDFS로 데이터를 수집 할 수 있습니까? 파일 : /// .... 을 사용하여 HDFS 외부의 로컬 파일을 가리킬 수 있지만 인터/인트라 클러스터 전송과 비교할 때 얼마나 안정적이며 빠르습니까?
다른 컴퓨터에 테라 바이트의 데이터 파일이 있습니다. 일부 처리를 위해 중앙 집중식 시스템에서 수집하려고합니다. flume을 사용하는 것이 좋습니다. 같은 양의 데이터가 RDBMS에 hdfs에 넣고 싶습니다. sqoop을 사용하여 데이터를 trasffer로 전송하는 것이 좋습니다. 대안이 아닌 경우
내 회사의 POC에 대해 작은 hado 클러스터를 구현 중입니다. Flume을 사용하여 파일을 HDFS로 가져 오려고합니다. 각각의 파일은이 (파일 당 1 "긴"라인) 같은 JSON 객체를 포함 { "objectType" : [ { JSON Object } , { JSON Object }, ... ] }
"objectType의"는 유형 배열의 객체 (예