hadoop

0열

3답변

다른 산업 데이터를 크롤링하고 단일 hbase 테이블에 데이터를 저장하고 있습니다. 예를 들어 Electronics and Computer industries를 크롤링하고 'industry_tbl'테이블에 저장합니다. 이제는 전자 제품 및 컴퓨터 산업에 대한 데이터 세트를 축소하여 수집하고 다른 데이터 세트를 사용하여 감속기 출력을 생산하려고하지만 현재 h

0열

1답변

하둡 단어 수는 예

가 성공적으로 만들어 하둡 환경 후, 내가이 11/12/30 06:46:13 INFO mapred.FileInputFormat: Total input paths to process : 1 11/12/30 06:46:14 INFO mapred.JobClient: Running job: job_201112300255_0019 11/12/30 06:46:

0열

3답변

클러스터 또는 "로컬"모드에서 Hadoop 스트리밍 작업을 실행하려고하는지 확인하는 방법은 무엇입니까?

Hadoop 스트리밍은 해당 상자에서 실행중인 hadoop 인스턴스가 없을 때 "로컬"모드로 프로세스를 실행합니다. 나는 일련의 hadoop 스트리밍 작업을 순서대로 제어하는 쉘 스크립트를 가지고 있으며 작업이 로컬에서 실행되었는지 여부에 따라 HDFS에서 로컬로 파일 복사를 조건 지정해야합니다. 이 시험을 수행하기위한 표준 방법이 있습니까? 나는 "p

0열

2답변

Hadoop 가상 머신 : 연결할 수 없습니다.

http://developer.yahoo.com/blogs/hadoop/posts/2010/10/yahoo-cloud-virtual-machine-appliance/에서 Hadoop 가상 머신을 다운로드하여 압축을 풉니 다. Windows 7의 VMWare Player에서이 작업을 시작했으며 로그인했습니다. 그러나 SSH를 통해 표시된 VM의 IP 주소에

22열

4답변

MapReduce 대안

MapReduce (Google, Hadoop)에 대한 대안 패러다임이 있습니까? & 큰 문제를 병합하는 다른 합리적인 방법이 있습니까?

2열

1답변

Hive Hadoop Python과 공통된 식별자가없는 합계 (if ...) 또는 조건문을 사용하여 두 개의 데이터 세트 조작

지리적 IP 대상 지정의 정확성에 대한 분석을 실행하려고하며 두 개의 매우 큰 데이터 ip 주소를 ip 정수 또는 ip_number (으)로 변환하여 작동하도록 설정합니다. 다음과 같이 변환 작동 ip_number = 16777216*w + 65536*x + 256*y + z (1) 곳 IP Address = w.x.y.z 내가 하이브와 하둡 내 두

2열

1답변

Hadoop 파일 시스템 통계 (FileSystem.Statistics)

hadoop filesystem.statistics 클래스의 설명서가 다소 부족한 것처럼 보입니다. "읽은 바이트 수"및 "쓰는 바이트 수"는 무엇을 의미하며 카운터는 어떻게 구현됩니까? 무엇을 의미하는지

0열

1답변

Hadoop S3 남아있는 공간 없음 장치

작은 입력 (~ 3MB, 크기 z의 정수 목록), 크기가 nxm 인 스파 스 매트릭스 캐시를 사용하는지도 축소 작업을 실행하고 있으며 기본적으로 z 스파 스 벡터를 출력합니다 차원 (nx 1). 여기 출력은 꽤 큽니다 (~ 2TB). S3 저장 장치가있는 Amazon EC2에서 20 m1 크기의 노드를 입력 및 출력으로 실행하고 있습니다. 그러나 IOExc

1열

1답변

메인 메소드 내 Hadoop 제어 작업

메인 메소드 내에서 hadoop 작업을 실행할 때마다 내 메인이 수행하는 유일한 작업 만 완료됩니다. 예를 들어 내가이 메인 메소드를 가지고 있다고 가정 해 보겠습니다 : public static void main(String[] args) { System.out.println("before"); //code for

0열

2답변

감속기의 힙 메모리 부족

그래서 나는 거기에서 죽어 가고있는 돼지 스크립트가 몇 개 있는데, 자바 힙이 공간을 다 써 버리는 오류로 작업 단계를 줄입니다. 지금까지 나의 유일한 해결책은 감속기의 수를 늘리는 것이었지만, 그것은 나를 믿을만한 곳으로 만들지 않는 것 같습니다. 이제이 부분은 우리가 얻고있는 데이터의 엄청난 성장 일지 모르지만 확신 할 수는 없습니다. 스필 임계 값 설