sequencefile

6열

1답변

SequenceFileInputFormat 파일 이름 + 오프셋을 포함하도록 확장합니다.

시퀀스 파일을 읽는 추가 사용자 지정 InputFormat을 만들 수 있지만 레코드가있는 해당 파일 내에서 파일 경로와 오프셋을 노출합니다. 한 걸음 뒤로 물러나려면 다음과 같은 유스 케이스가 있습니다. 가변 크기의 데이터가 포함 된 시퀀스 파일이 있습니다. 키는 대부분 관련성이 없으며 값은 다양한 필드가 포함 된 최대 2 메가 바이트입니다. 나는 elas

1열

1답변

Hadoop SequenceFile 바이너리가 안전합니까?

hadoop-1.0.4 소스 코드에서 SequenceFile.java를 읽었습니다. 그리고 sync(long) 메소드 은 SequenceFile을 MapReduce에서 파일 분할로 나눌 때 SequenceFile에서 "동기화 마커"(파일 생성시 생성 될 때 16 바이트 MD5)를 찾는 데 사용됩니다. /** Seek to the next sync mark

1열

1답변

하이브에 객체의 시퀀스 파일

우리는 NetCDF 파일에 저장된 많은 데이터로 시작했습니다. 거기에서 NetCDF 파일로부터 시퀀스 파일을 생성하기위한 Java 코드가 작성되었습니다. 우리는 코드의 원래 의도에 대해 많이 알지 못하지만 시퀀스 파일 자체에 대해 조금 배울 수있었습니다. 궁극적으로이 시퀀스 파일을 사용하여 하이브 내에 테이블을 만들려고하지만 현재로서는 그렇게 할 수없는 것

0열

1답변

HBASE 내보내기 유틸리티로 만든 시퀀스 파일을 읽을 수 없습니다.

테이블을 HDFS로 전송하기 위해 HBase 내보내기 도구를 사용해 보았습니다. 나는 hadoop dfs -text 파일을 수집하여 내용의 모음을 보았습니다. 그러나 치명적인 오류가 발생했습니다 : java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apach

0열

1답변

단일 키를 여러 값으로 매핑하는 시퀀스 파일

색인을 생성하기 위해 LucidWorks Big Data에 제공 될 데이터에 대해 일부 사전 처리를 수행하려고합니다. LWBD는 Sequencefile 파일 형태로 SolrXML을 허용합니다. 나는 자동으로 파일의 이름이 포함 된 열을 만들 수있는 형식으로 filename_1 => <here goes some XML> ... filename_N => <

0열

2답변

SequenceFile 클래스 쓰기 파일 사용

다음 코드를 사용하여 일부 데이터를 시퀀스 파일 형식 파일에 씁니다. 프로그램이 잠시 실행되면, Eclipse 콘솔의 빨간 버튼을 통해 프로그램을 중단합니다. 그러나 hdfs에서 데이터 파일을 검사 할 때 시퀀스 파일의 크기는 0입니다. 또한 'hadoop fs -text filename'명령을 사용하여 파일을 볼 수 없습니다. SequenceFile.Re

1열

1답변

임대 불일치 LeaseExpiredException

이 주제에 대한 몇 가지 게시물을 보았지만 문제점을 해결할 수 없습니다. 저는 Hadoop 버전 Hadoop 2.0.0-cdh4.2.0과 Java 버전 "1.7.0_09-icedtea"를 사용하고 있습니다. 카운터를 사용하여 간단한 mapreduce 예제에서 인터벤션을 제어하는 프로그램을 실행 중입니다. 나는 또한 데이터 통신을위한 시퀀스 파일을 사용한

1열

1답변

hadoop 시퀀스 파일 콜렉션

감속기 (텍스트 키와 Iterable MapWritable 값 사용)는 키의 그룹화를 유지하기 위해 모든 맵을 시퀀스 파일로 출력 할 수 있습니까? 예를 들어, 맵퍼의 모습 감속기에 기록을 전송한다고 가정 <"dog", {<"name", "Fido">, <"pure bred?", "false">, <"type", "mutt">}> <"cat", {<"na

0열

1답변

Hadoop 시퀀스 파일의 크기를 제한하는 방법은 무엇입니까?

txt를 입력으로 사용하여 Hadoop seq 파일을 작성했습니다. 텍스트 파일에서 시퀀스 파일을 작성하는 방법을 알고 있습니다. 하지만 출력 시퀀스 파일을 256MB와 같은 특정 크기로 제한하고 싶습니다. 이렇게하려면 inbuilt 메소드가 있습니까?

1열

1답변

HDFS 시퀀스 파일 성능 튜닝

시퀀스 파일에 저장된 많은 작은 파일을 처리하기 위해 Hadoop을 사용하려고합니다. 내 프로그램은 입출력 제한이이므로 IO 입출력이 충분히 높도록하고 싶습니다. 시퀀스 파일에서 작은 샘플 파일을 읽고이 파일을 램 디스크 (/ dev/shm/test /)에 쓰는 MR 프로그램을 작성했습니다. 아무런 계산없이 RAM 디스크에 기록 된 파일을 삭제하는 또 다른