hadoop-streaming

    0

    1답변

    일부 데이터를 지속적으로 검색하는 서비스가 있습니다.이 데이터를 배열로 덤핑합니다.이 데이터를 추가 처리해야합니다. 그것은 serivice에 의해 업데이 트를 계속 유지 동적 배열을 만들 수 있습니까, 그리고 내가 줄이기 작업을 실행할 수 있습니까? 또한 배열 입력 (파일 대신)을 사용하기 위해 어떤 클래스를 사용합니까? 추 신 : 하둡/맵을 처음 사용했습

    1

    3답변

    EMR 초보자 경고 : Google 웹 사이트의 사용 데이터가 포함 된 큰 로그가 있습니다. 고객은 고객 ID로 인증되고 식별됩니다. 고객 문제를 해결하려고 할 때마다 검색 기준으로 customer_id를 사용하여 모든 로그를 조회하고 결과를 파일로 파이프합니다. 그런 다음 결과 파일을 사용하여 문제를 해결합니다. EMR을 사용하여 고객 별 로그 파일을 만

    2

    2답변

    저는 python mrjob을 사용하여 mapreduce 프로그램을 배우려고합니다. dumping stdin to local file /tmp/pyes_mrjob.testuser.20131004.103251.998597/STDIN Making directory hdfs:///user/testuser/tmp/mrjob/pyes_mrjob.user.20131

    1

    1답변

    수행 할 수천 가지 맵 작업이있는 Amazon Elastic MapReduce에서 hadoop을 사용하려고합니다. 작업의 일부분 만 실패해도 괜찮습니다. 그러나 Amazon은 작업을 종료하고 첫 번째 매퍼가 실패하면 모든 결과를 잃어 버립니다. 허용되는 실패한 작업 수를 늘릴 수있는 설정이 있습니까? 감사.

    3

    1답변

    HDFS/tmp/input에 이미 업로드 된 입력 파일이 있습니다 (인쇄되지 않는 문자 인^A로 구분됨,이 VI의 뷰입니다) import sys for line in sys.stdin: name, score = line.strip().split(chr(1)) print '\t'.join([name, str(int(score)+1)])

    0

    2답변

    안녕하세요, 거기에 hadoop 클러스터가 있는데 R에서 내 자신의 Mapper와 Reducer를 작성하고 Hadoop Streaming을 사용하여 몇 가지 시계열 분석을 할 생각입니다. 그러나 클러스터 전반에 모든 종류의 소프트웨어를 설치하는 '일반적인'방법이 무엇인지 궁금합니다. 같은 마법이있을 수 있습니다 : sudo hadoop install R?

    1

    1답변

    hadoop 스트리밍을 사용하여 파일을 정렬하려고합니다. hadoop jar /apollo/env/SEOHadoopClient/lib/hadoop-streaming-0.20.205.0.jar \ -D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComp

    1

    1답변

    내 질문에 어리석은 질문이 생길 수 있지만, 하둡지도 축소를 처음 사용합니다. 그래서 그걸 알아내는 것이 어렵습니다. 나는 K를 구현할 때 맵 축소 및 Cloudera CDH4 (4.1.1) 사용의 클러스터링을 의미합니다. 데이터는 x 및 y 좌표가있는 점으로 구성됩니다. 따라서, 모든 센도의 변화가 0.1 미만이 될 때까지 각 단계에서 중심점을 업데이트합

    0

    1답변

    파이썬 MapReduce 프로그램 내에서 nltk를 사용하고 아래 명령을 사용하여 실행합니다. 내가 명령과 함께 제대로 NLTK 통과 할 수없는 나는 것을 발견했다. 누구든지 올바른 구문이 무엇인지 알려 줄 수 있습니까? 감사.

    0

    1답변

    하프 스트리밍 맵 축소를 위해 바이너리 출력을 다른 하프 스트리밍 맵 축소에 대한 입력으로 사용하는 방법을 파악하는 데 문제가 있습니다. echo.py : import sys while True: buffer = sys.stdin.read(1024) if not buffer: break sys.stdout.write(