bigdata

1열

1답변

어제 MacBook에 Hortonworks Hadoop 시스템을 설치했습니다. 모든 것이 잘되었지만 서버가 작동했지만 다시 켜고 가상 상자를 오늘 켜고 Hadoop을 연결하려고했습니다. 너무 많은 서버가 작동하지 않는 것을 보았습니다 (MapReduce, Hive Yarn ..). 어리석은 질문 일지 모르지만 나는 아주 새로운 것입니다. 왜 그래? 가상 박

0열

1답변

자바 스크립트 - 일반 계산

나는 현재 우리의 응용 프로그램에 대한 기능의 레이아웃에 대해 생각하고이 지금까지 가장 무거운 부분입니다 때문에, 내가 디자인하는 방법을 잘 모르겠습니다 데이터 3GB의 처리 : 우리가 원하는 사용자는 대형 데이터 세트에 대해 가정을 역행 할 수있는 가능성을 제공합니다. 데이터 세트는 그것은 계산에 사용 가능한 전에 (형식이 변경 될 필요가) 사전 처리해야

1열

1답변

OSB 프록시로 빅 데이터 처리

MFL 파일로 데이터를로드하는 OSB 프록시 서비스 (메시징 서비스)를 만들었습니다. 데이터의 형식은 다음 파일 2,075,259 전체 크기 (.txt 또는 .DATA)이다 : 1/1/2007;00:11:00;2.500;0.000;242.880;10.200;0.000;0.000;0.000; 1/1/2007;00:12:00;2.494;0.000;242.57

0열

1답변

Mysql 큰 테이블에서 테이블에서 다른 데이터로 이동하는 방법

나는 구성된 기본 키 과 함께 200,000,000 행 MYISAM에 대한 큰 테이블을 가지고 있지만 색인이 없습니다. 와 나는 인덱스를 생성하고자하지만 probleme 내가 추가 인덱스 요청을 실행할 때 테이블 서버가 고장이다 : ALTER TABLE `db`.`table` ADD INDEX `index_0001` (`col1` ASC); 그래서 내

0열

1답변

동종 데이터 저장소 용 Apache 드릴

보고 앱의 데이터 엔진 용 apache 드릴을 탐색하기 시작했습니다. 우리는 트랜잭션 데이터가 모두 RDBMS이므로 우리는 PostGres입니다. NoSQL (MongoDB) 로의 이동은 우리에게 먼 꿈이며, 현재로서는 그로 인해 돈을 쓰지 않아도됩니다. 우리의 데이터 크기가 크지 만 (여전히 PostGres에서 모두). 우리는 몇백 억 개 (예를 들어 1

0열

1답변

버스트 데이터 처리를위한 최상의 EC2 인스턴스

내 데이터 처리 응용 프로그램에 사용할 EC2 인스턴스 유형에 대한 조언이 필요합니다. goroutines 및 채널을 사용하는 Golang 응용 프로그램입니다. 10 초마다 데이터 소스를 검사 할 예정이며 시간당 약 100 만 개의 항목을 데이터베이스로 처리 할 수 있습니다. 도움 주셔서 감사합니다.

1열

1답변

추가를 사용하여 sqoop 가져 오기 문에서 마지막으로 수정 함

sqoop을 사용하여 Oracle 데이터베이스에서 데이터를 HDFS으로 추출합니다. 사람들은 정기적으로 SQL 테이블에 새 행을 업데이트하고 추가했습니다. 나는 --append 및 --last modified 옵션으로 점진적인 수입 sqoop을 알고 있습니다. 제 질문은 동일한 import 문에서 두 옵션을 모두 사용할 수 있는지 여부입니다. 예를 들어 ,

-4열

1답변

HTTP를 통해 많은 양의 데이터 스트리밍

수백만 개의 XML (약 몇 gbs )을 읽고 대기 시간이 짧은 나머지 GET 호출을 통해 http를 통해 스트리밍해야합니다. 자바 및/또는 오픈 소스 도구로이를 달성하는 옵션은 무엇입니까? 감사합니다.

1열

1답변

Apache Spark의 구분 기호 변경

저는 Apache Spark 초보자이며 XML 파일을 읽고 제목 당 단어 수를 계산할 수 있기를 원합니다. XML 파일은 다음과 같습니다 <title>first title</title> <words>there are seven words in this example</words> <title>second title</title> <words>there

0열

1답변

퍼지 매칭 중복 제거로 스트림 처리를위한 최선의 방법

플랫 파일로 시작하는 데이터 파이프 라인을 설계하고 있습니다. 파일의 각 행은 단일 레코드입니다. 일단로드되면 각 레코드가 구문 분석, 변환 및 강화됩니다. 이것은 다른 레코드와 독립적으로 발생합니다. 마지막 단계로, 필자는 여러 레코드 필드의 퍼지 매칭을 기반으로 레코드를 중복 제거하려고합니다. 이렇게하려면 2 개의 레코드를 모두 조합하고 싶습니다. 현재