hadoop

8열

3답변

Cloudera Manager를 사용하여 구성된 CDH3u2를 사용하는 8 노드 클러스터가 있습니다. 유일한 사육사 인스턴스를 실행하는 전용 마스터 노드가 있습니다. 마스터 노드에서 실행 된 로컬 hadoop을 실행하도록 하이브를 구성 할 때 HBase에서 데이터를 가져 오는 데 문제가 없습니다. 하이브를 통해 분산 맵/축소를 실행하면 슬레이브 노드가 사육

5열

2답변

hadoop dfs -ls complains

아무에게도 나에게 여기에서 틀린 것으로 보이는 것을 알 수 있습니까? hadoop dfs 명령은 정상적으로 보이지만 다음 옵션은 인식되지 않습니다. [hadoop-0.20]$bin/hadoop dfs -ls ~/wordcount/input/ ls: Cannot access /home/cloudera/wordcount/input/ : No such file

0열

2답변

hdfs에있는 압축 파일에 로그를 쓰거나 추가 할 수 있습니까?

내가 hadoop과 하이브를 테스트하고 있는데, 로그 분석에 사용하고 싶습니다. 여기에 질문이 있습니다. hdfs에있는 압축 파일에 로그를 쓰거나 추가 할 수 있습니까? 우리 시스템은 매일 많은 로그 파일을 생성하므로 매 시간마다 이러한 로그를 압축하여 hdfs에 넣을 수 있습니다. 하지만 이미 hdfs에 있고 압축 된 파일에 로그를 기록하려면 어떻게해야합

2열

2답변

작업이 Hadoop 작업으로보고하여 작업에 시간 초과가 발생하지 않도록하려면 어떻게해야합니까?

1) 데이터를 카산드라 클러스터로 스트리밍하는지도 전용 하둡 작업이 있습니다. 2) 때때로 스트리밍에 10 분 이상 소요되며 진행 상황이 작업에보고되지 않으면 작업이 종료됩니다. 3) context.progress() 메소드를 사용하여 진행 상황을보고하려했지만 도움이되지 않았습니다. hadoop 작업의 진행 상태를보고하는 데 필요한 다른 것이 있습니까? 나

0열

1답변

HBase가 어떻게 인덱스를 관리합니까?

HDFS가 읽기 전용 (또는 기본 시나리오에서 추가 가능) 인 경우 정렬 된 인덱스를 유지 관리하는 방법은 무엇입니까? 인덱스를 HDFS 또는 영구 저장 장치에 저장합니까? [편집] 예를 들어 F B A E 행을이 순서로 추가했다고 가정 해 봅시다. HDFS가 추가 할 수 있기 때문에 디스크의 행 순서는 삽입 순서와 동일합니다. 그러나 인덱스를 유지 관리하

7열

3답변

추가 기능이있는 HDFS는 어떻게 작동합니까?

기본 블록 크기 (128MB)를 사용 중이며 130MB를 사용하는 파일이 있다고 가정합니다. 하나의 풀 사이즈 블록과 하나의 블록을 2 MB로 사용합니다. 그런 다음 20MB를 파일에 추가해야합니다 (총 150MB 필요). 무슨 일이야? HDFS는 실제로 마지막 블록의 크기를 2MB에서 22MB로 조정합니까? 아니면 새로운 블록을 만드시겠습니까? HDFS의

1열

2답변

Hadoop 단일 노드 설치 - 포맷 오류 - 프롤로그에서 내용을 허용하지 않습니다.

hadoop 단일 노드 설치를 시도하고 있습니다. hadoop 설치 지침에 대한 설명은 this입니다. 내가해야 할 단계 중 하나는 명령을 hduser의 @의는 dbserver를 사용하여 하둡 파일 시스템을 포맷 할 수 있습니다 : ~/하둡/conf의 $/홈/hduser/하둡/빈/하둡 네임 노드 -format 오신 것을 환영합니다 :)를이 문제입니다 해결하

1열

1답변

Amazon MapReduce에서 컴파일 된 바이너리 호출

Amazon Elastic MapReduce에서 일부 데이터 분석을 시도하고 있습니다. 매퍼 단계는 "./formatData"라는 컴파일 된 C++ 바이너리 호출을 포함하는 파이썬 스크립트입니다. 예 : # myMapper.py from subprocess import * inputData = sys.stdin.readline() # ... p1 =

2열

1답변

HDFS를 사용하지 않을 경우의 데이터 지역

MySql 서버와 같이 HDFS가 아닌 다른 저장소를 제공 할 때 Hadoop의 Map/Reduce 부분의 데이터 지역성 기능은 어떻게됩니까? 즉, Hadoop Map/Reduce가 데이터 지역을 사용하여 데이터가있는 동일한 노드에서 맵 작업을 실행하려고하지만 데이터가 SQL 서버에 저장되면 태스크 노드에 로컬 데이터가 없습니다. 모든 데이터는 SQL Se

2열

1답변

Hadoop 파일 단위 블록 크기

Hadoop 책에서는 파일 생성시 파일 단위 블록 크기를 지정할 수 있다고합니다. "분할 크기를 늘리는 가장 자연스러운 방법은 HDFS에서 dfs.block.size를 설정하거나 파일 구성시 파일 단위로 더 큰 블록을 갖는 것입니다." 파일 작성시 어떻게하는지 생각해보십시오. hadoop fs -D dfs.block.size=file-size -put lo