2014-02-27 3 views
0

데이터를 섭취 :전처리 및 우리는 로그의 두 가지 유형이 하둡

1) 세션 로그 : SESSION_ID, USER_ID, START_DATE_TIME, END_DATE_TIME

2) 이벤트 로그 : SESSION_ID, DATE_TIME, X, Y, Z

이벤트 로그를 저장하기 만하면되지만 SESSION_ID를 해당 USER_ID로 바꾸고 싶습니다. 어떤 기술 (예 : Flume?)을 사용하여 HDFS에 데이터를 저장해야합니까?

감사합니다.

답변

0

예 로그 파일을 HDFS로 이동하는 데 Flume을 사용할 수 있습니다. 당신이 수 -

이 USER_ID로 SESSION_ID를 교체하려면 :

쉘 스크립트를 사용하여이 작업을 수행 - 그리고 '수정 된 이벤트 로그 파일'생성 -이 수로가 데리러 것입니다. 이것은 가장 간단한 방법 일 것입니다.