hdfs

5열

1답변

저는 Hadoop의 초보자입니다. 저는 HDFS가 대부분 "한 번 쓰고 언제든지 읽기"에 관한 것이라고 읽었습니다. HDFS에 저장된 파일을 수정해야하는 경우가 있습니다. 나는 이것을하는 어떤 방법이 있는지 연구하고있다. 제 질문은 HBase에 HDFS 파일을로드하고 수정 한 다음 HDFS에 다시 저장하고 원본 파일을 삭제하는 것입니다. 가능한 경우 알려

0열

1답변

Long Running Maps 작은 HDFS 파일의 작업

시나리오에 10000 개의 행이있는 텍스트 파일이 있다고 가정하면 HDFS에 저장할 때 매우 작습니다. 이제 당신의 목표는 매퍼에 전달되는 텍스트 파일의 모든 라인을 기대하면서이 작은 파일에 대한 맵/축소 작업을 실행하는 것입니다. 그러나 각 맵 k, v에 대한 처리 시간은 길어서 가능한 한 많은 수의 맵퍼를 클러스터에서 실행하여 최대 병렬 처리를 통해 맵

0열

1답변

다른 hadoop 유형 파일

Hadoop은 일반적으로 SequenceFile, TFile 및 Avro와 같은 파일 형식을 지원합니다. 다른 주요 형식이 있습니까? 이미지는 어떻습니까? 동일한 파일 형식을 사용하여 저장됩니까? 그들은 다른 방법으로 색인을 생성/조회해야합니까? 도움 주셔서 감사합니다.

0열

2답변

hdfs에있는 압축 파일에 로그를 쓰거나 추가 할 수 있습니까?

내가 hadoop과 하이브를 테스트하고 있는데, 로그 분석에 사용하고 싶습니다. 여기에 질문이 있습니다. hdfs에있는 압축 파일에 로그를 쓰거나 추가 할 수 있습니까? 우리 시스템은 매일 많은 로그 파일을 생성하므로 매 시간마다 이러한 로그를 압축하여 hdfs에 넣을 수 있습니다. 하지만 이미 hdfs에 있고 압축 된 파일에 로그를 기록하려면 어떻게해야합

7열

3답변

추가 기능이있는 HDFS는 어떻게 작동합니까?

기본 블록 크기 (128MB)를 사용 중이며 130MB를 사용하는 파일이 있다고 가정합니다. 하나의 풀 사이즈 블록과 하나의 블록을 2 MB로 사용합니다. 그런 다음 20MB를 파일에 추가해야합니다 (총 150MB 필요). 무슨 일이야? HDFS는 실제로 마지막 블록의 크기를 2MB에서 22MB로 조정합니까? 아니면 새로운 블록을 만드시겠습니까? HDFS의

2열

1답변

HDFS를 사용하지 않을 경우의 데이터 지역

MySql 서버와 같이 HDFS가 아닌 다른 저장소를 제공 할 때 Hadoop의 Map/Reduce 부분의 데이터 지역성 기능은 어떻게됩니까? 즉, Hadoop Map/Reduce가 데이터 지역을 사용하여 데이터가있는 동일한 노드에서 맵 작업을 실행하려고하지만 데이터가 SQL 서버에 저장되면 태스크 노드에 로컬 데이터가 없습니다. 모든 데이터는 SQL Se

3열

1답변

HADOOP_HOME을 기반으로 HDFS 구성을 자동으로로드 하시겠습니까?

나는 이미 실행중인 hadoop 클러스터와 인터페이스하기 위해 Java 프로그램을 작성 중이다. 프로그램에는 환경 변수로 HADOOP_HOME이 전달됩니다. HDFS/MapReduce와의 상호 작용을 시작하기 전에이 값을 바탕으로 모든 필요한 구성 리소스를로드해야합니다. 내가 필요하다고 생각하는 파일은 apache documentation을 기반으로합니다.

2열

2답변

hadoop logging facility?

사육사를 작업 대기열로 사용하고 개별 소비자/작업자와 연결하려는 경우. 이 근로자의 활동을 기록하기위한 훌륭한 분산 설정으로 무엇을 권하고 싶습니까? 언제든지 1) 우리는 아래로 1 대의 컴퓨터 하우징 하둡 클러스터가 될 수 : 는 다음과 같은 가정한다. 시스템은 필요에 따라 자동으로 위아래로 작동하지만 단 하나의 컴퓨터 만 필요로하는 가동 중지 시간이 많

2열

1답변

읽기/쓰기 (Hadoop) 중에 오류가 발생했습니다

나는 hadoop을 설치하기 위해 this 튜토리얼을 따랐습니다. 음, hadoop.tmp.dir로 \ usr \ local \ hadoop을 사용하면 모든 것이 잘 작동합니다. 이 파티션에 공간이 거의 없으므로이 값을/NEW_partition/(ext4)로 설정하려고 시도했지만 항상 일부 Java 오류가 발생했습니다. hadoop이이 파티션에 쓸 수 없기

2열

1답변

HBase/HDFS에 데이터를 동기화하고이를 MapReduce 작업의 입력으로 사용하십시오.

데이터를 Hadoop 파일 시스템과 동기화하고 싶습니다. 이 데이터는 예정된 MapReduce 작업의 입력으로 사용하기위한 것입니다. 이 예는 더 설명 할 수 있습니다 내가 단어의 무리가 포함 된 문서의 입력 스트림을 가지고 있다고하자,이 말은 맵리 듀스 단어 수 작업의 입력으로 필요하다. 따라서 각 문서에 대해 모든 단어를 파싱하여 파일 시스템에 업로드해