MapReduce 접근법을 사용하여 HTTP를 통해 액세스되는 연속적인 데이터 스트림을 분석하고 싶습니다. 따라서 Apache Hadoop을 살펴 보았습니다. 안타깝게도 Hadoop은 새로운 데이터를 도착한 소비자에게 전달할 수있는 것보다 고정 된 크기의 입력 파일을 사용하여 작업을 시작하려고합니다. 이게 사실인가요? 아니면 제가 빠진 것이 있습니까? 열린 소켓에서 데이터를 읽는 다른 MapReduce 도구가 있습니까? 여기서는 확장 성이 문제이므로 MapReducer에서 지저분한 병렬 처리 작업을 처리하도록하는 것이 좋습니다.스트리밍 데이터 및 Hadoop? (Hadoop Streaming이 아님)
Cascading으로 놀았으며 HTTP를 통해 액세스하는 정적 파일에서 작업을 실행할 수 있었지만 실제로이 문제는 해결되지 않았습니다. 컬을 중간 단계로 사용하여 Hadoop 파일 시스템의 어딘가에서 데이터를 덤프하고 새 작업을 시작할 때마다 새로운 작업을 시작하는 워치 독을 작성할 수 있습니다.하지만 이는 더러운 해킹입니다. 이것을하기위한 좀 더 우아한 방법이 있어야합니다. 어떤 아이디어?
저는이 분야에 익숙하지 않지만, 처음에는 ActiveInsight (CPAL 라이센스 - 속성이 필요함)도 좋아했습니다. –