mapper

    0

    0답변

    Hadoop을 여러 입력 파일과 함께 사용하려고합니다. 현재 나는 처리 할 큰 파일 하나와 일종의 색인 역할을하는 작은 파일 두 개를 가지고 있습니다. 내 문제는 전체 인덱스 파일을 유지할 필요가 있다는 것입니다. 큰 파일이 각 매퍼에 배포되는 동안 분리되지 않았습니다. Hadoop API에 의해 제공되는 방법이 있습니까? picture 업데이트 : 산티아

    0

    2답변

    핵심 인스턴스와 각 인스턴스가 가질 수있는 매퍼 사이의 관계에 대해 혼란스러워합니다. 이 매퍼는 어떻게 생성됩니까? 코어 인스턴스 카운트를 0으로 설정하면 마스터 노드 만 실행되므로 MapReduce 작업을 태스크 노드없이 실행할 수 있습니까? 미리 감사드립니다.

    0

    1답변

    H2 데이터베이스에 항목을 추가하려고합니다. class Test extends LongKeyedMapper[Test] with IdPK { def getSingleton = Test object name extends MappedString(this, 100) } 및 Test.create.name("some_name").id(2).s

    1

    1답변

    다른 디시리얼라이저를 다른 장면에 어떻게 사용할 수 있습니까? 예 : public class Student { @JsonDeserialize(using = SomeAdeserializer.class) @JsonProperty("dob") Date dateOfBirth; } SomeBdeserializer.class와 같은

    3

    3답변

    내 매퍼 클래스에 종속성을 주입하고 싶습니다. 예 매퍼 클래스 : public class Mapper() { private MyInterface myObject; public void map() { // Map code here } } 나는 Spring을 사용 인 myObject에 하는 MyInterface의

    0

    1답변

    내 MR 코드의 모든 작업에 의한 매핑, 셔플 링 및 축소의 개별 총 시간을 계산하려고합니다. 각 MapReduce 작업에 대한 정보 검색에 도움이 필요합니다. 계산을 수행하는 코드 스 니펫을 게시 할 수 있습니까?

    0

    1답변

    첫째, 나는 이것이 완전히 hadoop, parallelism 및 MR의 목적에 위배된다는 것을 알고 있습니다. 즉, 매우 구체적인 사용 사례가 있다고합니다. 큰 순서대로 전체 매퍼 파일의 내용을 단일 매퍼 인스턴스로 보내고 싶지만이를 처리하는 방법을 알 수 없습니다. 나는 ID 매퍼를 사용하여 감속기에서이 작업을 수행 할 수 있지만 데이터를 감속기로 가져

    0

    4답변

    550Gb 이상의 데이터를 돼지 라틴 스크립트로 실행하고 있습니다. 감속기는 기본 1입니다. 결과를 생성하는 데 약 38 분이 걸립니다. 감속기의 수를 늘리면 스크립트가 더 빨리 실행되는지 알고 싶습니다. 도움이 되겠습니다. 또한 매퍼 및 리듀서 설정의 기본 개념을 알고 싶습니다.

    0

    1답변

    일반 텍스트 파일이 있고 행은 '\ n'으로 구분되며 열은 인쇄 할 수없는 문자 인 '^ A'로 구분됩니다. 이 파일을 HBase에로드해야하고 필자가 원하는대로 할 수있는 importtsv 도구가 있습니다. 내가 몇 가지 조사를했고, 지금까지 알아 낸 : hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ -Dim

    2

    1답변

    합시다. 각각 100MB 크기의 파일이 100 개 있고 블록 크기가 64MB라고합시다. 1) 모든 100 개의 파일을 처리하는 데 필요한 매퍼 수입니다. 2) 입력 분할 크기의 최대 한도는 블록 크기입니다. 그래서 우리의 경우 64MB가 될 것입니다. 따라서 매퍼가 파일의 입력 분할을 처리하기 시작하면 즉, 나머지 36MB를 처리하는 방법은 64MB입니다.