어제 MacBook에 Hortonworks Hadoop 시스템을 설치했습니다. 모든 것이 잘되었지만 서버가 작동했지만 다시 켜고 가상 상자를 오늘 켜고 Hadoop을 연결하려고했습니다. 너무 많은 서버가 작동하지 않는 것을 보았습니다 (MapReduce, Hive Yarn ..). 어리석은 질문 일지 모르지만 나는 아주 새로운 것입니다. 왜 그래? 가상 박
나는 현재 우리의 응용 프로그램에 대한 기능의 레이아웃에 대해 생각하고이 지금까지 가장 무거운 부분입니다 때문에, 내가 디자인하는 방법을 잘 모르겠습니다 데이터 3GB의 처리 : 우리가 원하는 사용자는 대형 데이터 세트에 대해 가정을 역행 할 수있는 가능성을 제공합니다. 데이터 세트는 그것은 계산에 사용 가능한 전에 (형식이 변경 될 필요가) 사전 처리해야
MFL 파일로 데이터를로드하는 OSB 프록시 서비스 (메시징 서비스)를 만들었습니다. 데이터의 형식은 다음 파일 2,075,259 전체 크기 (.txt 또는 .DATA)이다 : 1/1/2007;00:11:00;2.500;0.000;242.880;10.200;0.000;0.000;0.000;
1/1/2007;00:12:00;2.494;0.000;242.57
나는 구성된 기본 키 과 함께 200,000,000 행 MYISAM에 대한 큰 테이블을 가지고 있지만 색인이 없습니다. 와 나는 인덱스를 생성하고자하지만 probleme 내가 추가 인덱스 요청을 실행할 때 테이블 서버가 고장이다 : ALTER TABLE `db`.`table`
ADD INDEX `index_0001` (`col1` ASC);
그래서 내
보고 앱의 데이터 엔진 용 apache 드릴을 탐색하기 시작했습니다. 우리는 트랜잭션 데이터가 모두 RDBMS이므로 우리는 PostGres입니다. NoSQL (MongoDB) 로의 이동은 우리에게 먼 꿈이며, 현재로서는 그로 인해 돈을 쓰지 않아도됩니다. 우리의 데이터 크기가 크지 만 (여전히 PostGres에서 모두). 우리는 몇백 억 개 (예를 들어 1
내 데이터 처리 응용 프로그램에 사용할 EC2 인스턴스 유형에 대한 조언이 필요합니다. goroutines 및 채널을 사용하는 Golang 응용 프로그램입니다. 10 초마다 데이터 소스를 검사 할 예정이며 시간당 약 100 만 개의 항목을 데이터베이스로 처리 할 수 있습니다. 도움 주셔서 감사합니다.
sqoop을 사용하여 Oracle 데이터베이스에서 데이터를 HDFS으로 추출합니다. 사람들은 정기적으로 SQL 테이블에 새 행을 업데이트하고 추가했습니다. 나는 --append 및 --last modified 옵션으로 점진적인 수입 sqoop을 알고 있습니다. 제 질문은 동일한 import 문에서 두 옵션을 모두 사용할 수 있는지 여부입니다. 예를 들어 ,
저는 Apache Spark 초보자이며 XML 파일을 읽고 제목 당 단어 수를 계산할 수 있기를 원합니다. XML 파일은 다음과 같습니다 <title>first title</title>
<words>there are seven words in this example</words>
<title>second title</title>
<words>there
플랫 파일로 시작하는 데이터 파이프 라인을 설계하고 있습니다. 파일의 각 행은 단일 레코드입니다. 일단로드되면 각 레코드가 구문 분석, 변환 및 강화됩니다. 이것은 다른 레코드와 독립적으로 발생합니다. 마지막 단계로, 필자는 여러 레코드 필드의 퍼지 매칭을 기반으로 레코드를 중복 제거하려고합니다. 이렇게하려면 2 개의 레코드를 모두 조합하고 싶습니다. 현재