hadoop

    2

    1답변

    내 mapreduce 스크립트 내에서 hadoop의 hdfs 클러스터에있는 파일을 참조하고 싶습니다. 전체 경로 (hdfs : // ip/path/to/file)를 사용하지 않고 대신 local/path/to/file 참조를 사용할 수 있습니까? 저는 java를 사용하고 다음과 같이 시도했습니다 : File file = new File(stringPathT

    6

    1답변

    내 직업에 정렬이 필요하지 않으며 키당 집계 정보 만 필요합니다. 그래서 나는 성능 향상의 순서로 모든 정보의 분류를 불가능하게하는 것이 가능하다고 생각한다. 참고 : 많은 매퍼간에 데이터를 집계해야하기 때문에 감속기 수를 0으로 설정할 수 없습니다. 나는 단지 하나의 감속기를 소팅 한 결과에 관심이 없다.

    4

    1답변

    PIG에서 변수를 선언하는 방법은 무엇입니까? 10으로 값을 갖는 정수를 원한다고 가정합니다. 어떻게 스크립트에서 선언 할 수 있습니까? 스키마를 재사용하는 방법은 무엇입니까?

    7

    4답변

    HDFS와 GridFS는 분산 파일 저장을위한 두 가지 훌륭한 기술이지만 그 차이점은 무엇입니까? 어떤 유형의 문제가 각각에 더 잘 맞습니까?

    5

    1답변

    SQL Hive의 컴파일러에서 생성 된 코드가 무엇인지 알고 싶습니다 (즉, SQL 하이브 컴파일러에서 생성 된 MapReduce 작업 코드를보고 싶다면 하나의 sql 문장을 실행하십시오). 어떻게받을 수 있습니까?

    4

    2답변

    나는 hadoop에 데이터를 가지고 있고 파티션 (날짜와 시간)을 사용하여 외부 테이블을 만들었습니다. 테이블 생성은 괜찮지 만 데이터를 쿼리하려고 할 때 어떤 결과도 얻지 못합니다. 하둡 파일 경로 ->/test/dt=2012-01-30/hr=17/testdata* 만들기 문 -> CREATE EXTERNAL TABLE test(adate STRING,

    0

    1답변

    MapReduce 실행의 특정 단계에서 Hadoop 클러스터를 벤치마킹하는 데 관심이 있습니다. 즉, 나는 맵 단계, 셔플 단계 및 감소 단계 사이를 명확하게 구분하고 싶습니다. 셔플 또는 모든 셔플 완료 까지 감소에서 모든지도 작업이 완료 전에 아무것도하고 자제를 감소 자제 할 수있는 방법이 있나요? 각 단계에서 자원 소비에만 관심이 있기 때문에 실행 시

    2

    1답변

    Maven을 사용하여 Hadoop 작업을 빌드하려고합니다. 이 작업은 Maven을 사용하지 않고 Eclipse에 Hadoop Jar 종속성을 직접 가져올 때 잘 작동합니다. 또한 Hadoop 종속성이없는 Maven을 사용하여 간단한 jar (hello world type)를 만들 수 있습니다. 하지만 하둡 종속성을 추가하고 항아리를 실행할 때이 오류가 얻을

    2

    1답변

    는 내가 hive-0.7.1-cdh3u2의 하이브 버전을 사용하고 Create external with Partition 같이 하이브 테이블을 만들었습니다. 내가 간단한 쿼리를 실행할 때, 즉 count (*)를 선택하면 오류가 발생합니다. hive> select count(*) from test where dt='2012-01-30' and hr='17'

    1

    1답변

    hadoop 작업을 실행하고 출력을 Cassandra에 쓰려고합니다. 당신이 보는 경우 public class SentimentAnalysis extends Configured implements Tool { static final String KEYSPACE = "Travel"; static final String OUTPUT_COLUMN_FAMIL