hadoop

    38

    1답변

    Cassandra 또는 Membase 또는 Hadoop 또는 일반 오래된 관계형 데이터베이스를 사용할시기에 대한 종이/블로그 게시물이 있습니까? 각 기술의 강점/약점에 대해 토론하고있는 문서가 있습니까? 저는 하루에 약 백만 회의 조회수와 몇 테라 바이트에 달하는 데이터가 포함될 새로운 웹 서비스를 작성할 생각입니다.

    3

    2답변

    CDH (Cloudera Distribution for hadoop)는 오픈 소스인가, 아니면 상용입니까? 위의 내용은 크게 감사하겠습니다.

    4

    1답변

    kerberos를 사용하여 hadoop을 구성했지만 모든 것이 잘 작동하고 hdfs를 탐색하고 작업을 제출할 수 있습니다.하지만 http 웹 인증에 실패했습니다. HTTPSNEGO를 지원하는 cdh3u2에서 hadoop-0.20.2를 사용합니다. 다음과 같이 코어를 site.xml에 HTTP 인증과 관련된 구성은 다음과 같습니다 시작하는 동안 <!-- HT

    1

    1답변

    두 개의 Sequencial Job1 및 Job2가 있습니다. Job1의 출력은 HDFS에 기록됩니다. Job2는 Job1의 출력을 로컬 파일 시스템으로 다운로드합니다. 그러나 다운로드 한 파일의 크기가 0 인 것을 발견했습니다. Job2가 다운로드를 시작하면 Job1의 출력이 HDFS에 기록되지 않기 때문입니다. 이 문제를 해결하려면 Job1의 출력이 H

    7

    2답변

    4 줄마다 한 세트가 레코드를 나타내는 파일이 있습니다. 예를 들어, 처음 네 개의 선이 신기록을 나타내고, 다음 네 개의 레코드 2를 대표 등 .. 어떻게 매퍼 입력 한 번에 네 가지 라인을 보장 할 수 있는가? 또한, 나는 ... 기록은 여러 개의 분할 파일에서 범위를하지 않도록 하둡의 파일 분할이 (줄 번호가 4의 배수 여야합니다) 레코드 경계에서 일

    1

    1답변

    hadoop에서 매퍼 출력을 분할하기 위해 동일한 분할 자 (예 :지도 출력 키의 해시 분할)를 사용하는 경우 노드 수가 고정되어 있다고 가정합니다 (서버 충돌이 발생하지 않음). 그러면 작업이 실행됩니다 동일한 데이터 세트를 두 번 읽습니다. 동일한 키를 가진 데이터가 동일한 감속기에 전달 될 수 있습니까? 감사합니다 예를 들어, 내 맵 출력은 두 행으로

    0

    1답변

    Hadoop 0.20을 사용하여 NLinesInputFormat을 사용하려고하지만이 기능이 없습니다. 대안이 있습니까? 기록을 데이터 범위 여러 줄에, 그래서 k는 각 레코드에 걸리는 줄 수는 'K'의 배수로 NLinesInputFormat을 설정한다 는 여기에 내가 할 노력하고있어입니다. 도움을 주시면 감사하겠습니다.

    0

    1답변

    하둡 작업이 10 건 정도 있습니다. -conf /path/on/my/local/system/start-conf.xml -conf /path/on/my/local/system/job-1-conf.xml -conf /path/on/my/local/system/job-2-conf.xml -conf /path/on/my/local/system/job-i-c

    1

    4답변

    많은 사용자가 공유하는 Hadoop 클러스터를 관리하고 있습니다. 매우 느린 매퍼로 작업을 자주 실행합니다. 예를 들어, 우리는 NLP 구문 분석 (문장 당 100 밀리 초)이 필요한 문장의 32 GB 파일 (한 줄에 한 문장)을 가질 수 있습니다. 블록 크기가 128MB이면 250 개의 매퍼입니다. 이것은 우리의 작은 클러스터를 채 웁니다 (노드 당 9

    1

    1답변

    hadoop에서 사용자 당 동시 감축 슬롯 수를 제한하는 방법이 있습니까? 우리는 한 명의 사용자가 언제든지 사용 가능한 모든 축소 슬롯을 사용하지 않도록하고자합니다.