집계 된 로그에서 데이터를 검색하는 방법을 알고 싶습니다. 이것은 내가 무엇을 가지고 :
- 30 기가 바이트 HDFS에로드 압축되지 않은 로그 데이터의 일상 (이것은 1백기가바이트에 대해 곧 성장할 것)에 대한
이 내 생각이다 :
-이 데이터가 돼지
로 처리되어 매일 밤 - (로그 데이터를 무한대로 저장됩니다)집계 된 웹 로그 데이터에서 정보를 검색하는 방법?
timestamp
이
url
,
user_id
이 (말할 수, 이것이 내가 필요한 모든)
: 로그는, 분할을 읽고, 사용자 정의 UDF는 같은 데이터를 검색하는
그런 다음 주어진 시간 범위 내에서 특정 페이지를 보았던 사용자를 알고 싶다면 wh를 검색하지 않고 HBase를 신속하게 쿼리 할 수 있습니다 각 쿼리와 함께 로그 데이터를 기록합니다 (그리고 빠른 응답을 원합니다 - 분만 허용됩니다). 동시에 여러 쿼리가 수행됩니다.
이 워크 플로에 대해 어떻게 생각하십니까? 이 정보를 HBase에로드하는 것이 합리적일까요? 다른 옵션은 무엇이며 어떻게 내 솔루션과 비교합니까? 모든 의견/질문과 대답에 감사드립니다. 미리 감사드립니다.
저는 하이브에 익숙하며 쿼리를 위해 사용했습니다.하지만 너무 느립니다. 한달 동안의 로그 분석 (최대 3TB)은 현재 하드웨어에서 약 2-3 시간이 소요되며 결과는 분 (10 분) 이내로 유지하려고합니다. 지금 Hive 또는 Pig를 사용하고 있습니다. (다른 항목이 없기 때문에) 임시 쿼리를 수행하고 있지만 다른 솔루션이나 아이디어를 찾고 있습니다. – wlk