hadoop

2열

3답변

알고 싶었습니다 : 동일한 작업이 두 번 제출되면 hadoop mapreduce가 전체 데이터 세트를 다시 처리합니까? 예 : 단어 수 계산 예는 입력 폴더의 각 파일에서 각 단어의 발생을 계산합니다. 해당 폴더에 파일을 추가하고 word count mapreduce 작업을 다시 실행하면 초기 파일을 다시 읽고 다시 매핑하고 다시 줄이겠습니까? 그렇다면 새

-1열

1답변

어떻게 hadoop을 사용합니까? Python 사용자

저는 열렬한 파이썬 사용자이며 제 주된 관심사는 Machine Learning입니다. 주로 파이썬에서 MySQL 패키지 (mysqldb)를 사용하여 파이썬에서이 작업을 수행합니다. 그리고 일들이 좋아 보인다.하지만 이제는 "큰 데이터"라고 불리는 영역을 걷고있다. Hadoop 또는 Mahout Hadoop을 시작할 때 어떤 조언을 해 줄 수 있습니까? 대부

0열

3답변

MySql에서 HDFS로 데이터를 가져 오는 가장 좋은 방법

MySQL에서 HDFS로 데이터를 가져올 방법이 있는지 알아야 할 부분이 있습니다. hbase, hive 및 sqoop이 나를 도울 수 있다는 것을 알고 있지만 추가 레이어가 없습니다. 그냥 mapreduce와 hadoop 자바 API. 또한 mySQL에서 데이터가 업데이트됨에 따라 HDFS를 업데이트해야합니다. mysql 데이터를 HDFS로 가져 와서 실

3열

1답변

하둡 파일 분할 : CompositeInputFormat : 내부 조인

하둡 작업에 입력을 제공하기 위해 CompositeInputFormat을 사용하고 있습니다. 생성 된 분할 수는 CompositeInputFormat (결합 용)에 대한 입력으로 제공된 파일의 총 개수입니다. 작업은 블록 크기와 최대 분할 크기를 완전히 무시합니다 (CompositeInputFormat에서 입력을 가져 오는 동안). 이는 길게 실행되는지도

1열

2답변

Map-Reduce에서 여러 디렉토리에서 여러 파일을 읽는 방법

Map-Reduce 프로그램에서 여러 디렉토리의 여러 파일을 읽으 려합니다. FileInputFormat.setInputPaths(conf,new Path("hdfs://localhost:54310/user/test/")); FileInputFormat.setInputPaths(conf,new Path("hdfs://localhost:54310/Test/

0열

1답변

XML 데이터를 플랫 파일로 변환하지 않고 직접 하이브 테이블에로드하는 방법

"XML을 하이브 테이블로로드"를 플랫 파일로 변환하지 않고 일부 문제가 있습니다. 예를 들어 필요한 것을 제공하여 도움을 받으십시오. 그것을 할 방법을 제공합니다.

1열

1답변

Hadoop에서 각 키 - 값 쌍의 값을 배열로 유지하려는 경우 왜 모든 요소를 동일하게 추가합니까?

Map 함수가 가져 오는 키 - 값 쌍의 값을 저장하고 더 많이 사용하려고합니다. 다음 입력을 감안할 때 : Hello hadoop goodbye hadoop Hello world goodbye world Hello thinker goodbye thinker 다음 코드를 주 - 맵이 간단한 단어 수의 예를이다 public class Inception

2열

1답변

hadoop을 사용한 로그 검색

우리는 실시간으로 검색해야하는 여러 웹 서버에 거대한 로그 파일 (~ 100s of Gigs)을 가지고 있습니다. 이 로그 파일은 여러 앱에서 여러 번 기록됩니다. 최근에 일부 서버에 hadoop 클러스터를 설치했습니다. 이러한 로그에 대한 검색을 구현하기 위해 필자는이 디자인에 대해 생각해 보았습니다. 웹 서버에서 실행되는 프로세스로 로그의 역 색인을 생

-1열

2답변

hadoop tasktracker 상태를 수집하는 방법은 무엇입니까?

활성 tasttrackers에 대한 다양한 메트릭을 수집하려고하지만 예외가 throw됩니다. 확실하지 않은 이유는 무엇입니까? for(String s: jc.getClusterStatus(true).getActiveTrackerNames()){ System.out.println("tt "+s); System.out.println("

0열

1답변

hadoop mapreduce에서 중복 됨

hadoop 0.20.2부터 시작합니다. 기본 단어 수 문제를 여기서 찾은 코드로 시작하고 싶습니다. http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html 이렇게 작동해야합니다. 그러나 단어가 여러 파일에 걸쳐 구분 내가 파일 당 단어 수를 계산하려면, 그래서에 매퍼를 변경