hadoop

10열

2답변

집중적 인 작업 처리를 처리하는 데있어 Apache Hadoop에 대해 많이 들었습니다. Hadoop에 대한 기본적인 소개를 원합니다. helloworld과 같으며, 그 다음에 사용 사례가있을 수 있습니다. 만들기 하둡-core.jar를 :

9열

1답변

hadoop을 사용하여 메모리 제한 지정

Hadoop 클러스터 (0.20.203)에서 높은 메모리 작업을 실행하려고합니다. 일부 메모리 제한을 적용하기 위해 mapred-site.xml을 수정했습니다. <property> <name>mapred.cluster.max.map.memory.mb</name> <value>4096</value> </property> <

2열

2답변

효율적인 방법으로 MapReduce 결과를 줄일 수 있습니까?

나는 데이터 집합에 N- 그램 수를 가지고 간 맵리 듀스 작업을 썼다. 결과는 형식이 300MB 인 백개의 파일, <ngram>\t<count>입니다. 나는 이것을 하나의 결과로 결합하고 싶지만, 결합에 대한 몇 가지 시도는 추락했다 ("작업 추적자가 없어졌다"). 나는 8 시간 만에 타임 아웃을했고,이 충돌은 약 8.5 시간에 발생했기 때문에 관련이있을

0열

1답변

Hadoop으로 MySql을 업데이트 할 수 없습니다. 삽입 만

Hadoop을 사용하여 데이터를 읽고 처리 한 다음 MySql에 다시 쓰려고합니다. 그러나 마치 삽입 만 할 수있는 것 같습니다. 동일한 기본 키 (다시 말해 의미)를 사용하여 다시 쓰기를 시도하면 "기본 키의 중복 XXX"와 같은 오류가 발생합니다. 누구든지이 문제를 해결 했습니까? 업데이트 할 수 있습니까? 고맙습니다.

9열

1답변

TaskTracker 하위 프로세스 (Mapper 및 Reduce 작업)에 메모리를 구성하는 여러 가지 방법

과 mapred.child.java.opts을 -Xmx를 사용하여 Mapper 및 Reduce 작업에 사용되는 최대 메모리를 제어하는 것과 다른 점은 무엇입니까? 어느 것이 우선합니까?

5열

2답변

데이터 마이닝 대신 돼지/하이브를 사용하여 코드를 줄일 수 있습니까?

(심지어 기본적인 Difference between Pig and Hive? Why have both? 이상) 나는 작성된 데이터 처리 파이프 라인을 가지고 여러 자바지도-감소 (하둡의 매퍼 및 감속기에서 파생 된 내 자신의 사용자 지정 코드) 하둡 이상 작업을. 조인, 역 정렬, 정렬 및 그룹화와 같은 일련의 기본 작업입니다. 내 코드가 관련되어 있으며

0열

2답변

Hadoop : libhdfs.so를 컴파일하는 방법은 무엇입니까?

우리는 Hadoop C/C++ API (libhdfs.so)를 통해 Hadoop을 사용하고 있습니다. 우리는 0.20.203 인 최신 Hadoop 안정 버전을 사용합니다. 불행하게도, libhdfs.so를 빌드하는 명확한 (그리고 최신의) 지시 사항은 없습니다. 개미를 사용하여 Hadoop을 빌드하려고하면 libhdfs.so 라이브러리가 생성되지 않고 실패

0열

1답변

Ec2 + Java 용 Hadoop 응용 프로그램

분산 된 CPU 중심의 Java 기반 작업을 구현해야합니다. 데이터베이스가 필요 없으며, 각 작업은 간단한 텍스트 파일을 가져옵니다. 모두 EC2에서 실행되어야합니다. 나는 쉽게 인스턴스를 시작하고 그 사이에 작업을 배포하고 결과를 수집 할 수있는 프레임 워크를 찾고 있습니다. JAR 파일은 거의 모든 시간 동일하게 유지되며 대부분은 각 실행 사이의 매개

2열

3답변

Mahout - Naive Bayes

mahout을 사용하여 20- 뉴스 그룹 예제를 배포하려고 시도했지만 정상적으로 작동하는 것 같습니다. 베이 즈 모델 디렉토리 아래의 하위 디렉토리를 포함 포함 트레이너 - TFIDF 트레이너 - thetaNormalizer 트레이너 - 무게 : 호기심 나는 예를 들어 이 모델 통계에 깊이 파고 싶습니다 part-0000 파일. 더 나은 이해를 위해 파일의

4열

1답변

큰 데이터 세트 처리 (neo4j, mongo db, hadoop)

데이터 처리를위한 모범 사례를 찾고 있습니다. 그래서, 그것이 내가 지금까지 얻은 것입니다 : "A"타입의 1.000.000 노드. 모든 "A"노드는 유형 "B"의 1-1000 노드와 유형 "C"의 1-10 노드에 연결할 수 있습니다. 저는 neo4j 그래프로 데이터를 가져 오기 위해 RESTful 서비스 (Java, Jersey)를 작성했습니다. 노드 "