mapreduce

33열

6답변

Google은 개의 값을 가진 함수를 사용하여 여러 데이터를 분석 할 수 있습니다. 모든 같은 지도 기능에 의해 생성 된 동일한 데이터 세트에 알고리즘 작업을 줄일 수 있습니다. 대용량 데이터 집합을 읽는 데 너무 많은 비용이 필요할 때마다 한 번만 읽으면 이에 매핑되고 데이터가으로 줄어 듭니다. 하둡으로이 작업을 수행 할 수 있습니까? 나는 예제와 int

3열

4답변

Hadoop MapReduce를 사용한 전산 언어 프로젝트 아이디어

전산 언어학 과정에 대한 프로젝트를 수행해야합니다. Hadoop 맵 축소를 사용하여 작업하기에 충분한 데이터 집약적 인 "언어"문제가 있습니까? 솔루션이나 알고리즘은 "lingustic"도메인에서 약간의 통찰력을 시도하고 분석해야합니다. 그러나 그것은 큰 데이터 집합에 적용 할 수 있어야만 내가 hadoop을 사용할 수있다. hadoop을위한 파이썬 자연

2열

1답변

MapReduce 작업이 서로 독립적임을 보장하려면 어떻게해야합니까?

궁금한데 MapReduce, Hadoop 등은 독립적으로 운영되는 작업으로 데이터 묶음을 어떻게 나눕니까? 나는 그 일이 어떻게 될지 상상하기가 힘들다. 일들 사이의 상태 조건과 같은, 매우 내재적 인 데이터를 갖는 것이 일반적이라는 것을 고려하면, 고마워.

2열

4답변

Hadoop을 사용하여 웹 서버에서 로그의 라이브 피드 처리

Hadoop (Amazon Elastic mapreduce)을 사용할 때처럼 웹 서버에서 로그를 처리하려고합니다. 나는 도움을 줘도 googled했다. 그러나 아무것도 유용하지 않았다. 이 작업을 수행 할 수 있는지 또는이 작업을 수행 할 대체 방법이 있는지 알고 싶습니다.

0열

2답변

Amazon Mapreduce에서 실행되는 돼지 스크립트의 STREAM 키워드

다른 Python 프로그램을 활성화하는 돼지 스크립트가 있습니다. 내 자신의 hadoop 환경에서 그렇게 할 수 있었지만 Amazon지도에서 스크립트를 실행하면 WS가 항상 실패합니다. 는 로그 말 : org.apache.pig.backend.executionengine.ExecException : ERROR 2090 : 수신 오류를이 계획을 줄일 수 처리

2열

3답변

다른 파일의 한 파일에서 단어를 검색하는 Hadoop

한 파일에서 단어를 읽고 다른 파일에서 검색 할 수있는 hadoop 응용 프로그램을 만들고 싶습니다. 그것은 하나 개의 출력 파일 단어가 존재하지 않는 경우에 쓸 수있다 - - 또 다른 출력 파일 에 기록하는 내가 하둡에 몇 가지 예를 시도 단어가 존재하는 경우. 두 가지 질문이 있습니다 두 파일의 크기는 각각 약 200MB입니다. 다른 파일의 모든 단어를

0열

1답변

스트림을 동일한 데이터 세트에 대한 쿼리로 처리 할 때 효율적인 MapReduce

방대한 정적 데이터 세트가 있으며 이에 적용 할 함수가 있습니다. f는 reduce (map (f, dataset)) 형식이므로 MapReduce 스켈레톤을 사용합니다. 그러나 각 요청마다 데이터를 분산시키고 싶지 않습니다. (그리고 이상적으로는 f를 빠르게하기 위해 인덱싱을 활용하고 싶습니다). 이 일반적인 경우를 처리하는 MapReduce 구현이 있습니

4열

2답변

Hadoop/MapReduce와 일치하는 라인 찾기

나는 Hadoop을 가지고 놀고 있으며 우분투에서 두 개의 노드 클러스터를 설정했다. WordCount 예제는 정상적으로 실행됩니다. 지금은 일부 로그 데이터를 분석하는 내 자신의 맵리 듀스 프로그램을 작성하고 싶습니다 : 이 형식 로그 께서 각 라인 (주된 이유를 간단보고 나는 데이터의 많음이있다) <UUID> <Event> <Timestamp> 여기

4열

3답변

지도 테라 바이트 단위의 데이터로 알고리즘 맵 축소?

이 질문에는 "올바른"답변이 하나도 없습니다. 테라 바이트 급 데이터의 클러스터에서 Map Reduce 알고리즘을 실행하는 데 관심이 있습니다. 상기 알고리즘의 실행 시간에 대해 자세히 알고 싶습니다. 어떤 책을 읽어야합니까? Map Reduce 클러스터를 설정하거나 표준 알고리즘을 실행하는 데 관심이 없습니다. 나는 엄격한 이론적 인 치료 또는 실행 시간

0열

1답변

분산 맵 축소 프로그래밍 시스템을 사용하는 가장 쉬운 방법은 무엇입니까?

분산 맵 축소 프로그래밍 시스템을 사용하는 가장 쉬운 방법은 무엇입니까? 예를 들면. Map: for all records of type "user" do for each user count number of connections retrun connection_count_for_one_user Reduce: reduce (con