bigdata

0열

1답변

나중에 쉽게 서브 세트 할 수있는 큰 매트릭스 (데이터 프레임)를 저장하는 방법

크기가 약 1300000 * 10000, 약 50GB 인 R로 큰 매트릭스 (데이터 프레임)를 생성합니다. 이 행렬을 적절한 형식으로 저장하려고합니다. 그래서 나중에 데이터를 파이썬이나 다른 프로그램 코드로 보내서 분석을 할 수 있습니다. 물론 데이터를 한 번 공급할 수 없으므로 매트릭스를 부분 집합화하고 조금씩 공급해야합니다. 그러나 행렬을 저장하는 방법

1열

1답변

"들어오는 문"으로 Kafka가있는 DWH 환경에 일괄 오프라인 데이터로드

내 질문에 대한 몇 가지 상황. 당신은 여기에서 볼 수 있듯이 : 예를 들어이 토폴로지를 사용하여 HDFS Sqoop을 카프카 로 데이터를로드하기 위해 2 "문"이 있습니다 https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c , FTP 서버 정보 HDFS에서 호스팅

0열

1답변

graphml과 jung으로 사용자 정의 노드와 가장자리로드하기

JUNG과 함께 텍스트 파일을 읽고 쓰는 동안 문제가 발생합니다. 상황은 다음과 같습니다. Given은 다중 도트의 좌표와 무게를 포함하는 파일입니다. 예는 다음과 같습니다 6346 6728 5911 156 5 6346 6728 6599 156 10 6346 6728 8555 156 5 나는 같은 수백만 개의 행이 포함 된 파일을 읽고 Directe

0열

1답변

TPC DS 쿼리 및 데이터베이스

TPC DS 쿼리 및 데이터 집합을 어디에서 찾을 수 있습니까? Redshift와 Snowflake에서 성능을 분석해야하는 프로젝트 작업 중 하나입니다.

0열

1답변

cloudera hadoop UI를 사용하여 sqoop incremental 자동화하기

timestamp가 아닌 다른 컬럼 값을 사용하여 sqoop 가져 오기를 자동화하는 방법이 있습니까? 테이블에 하나의 열 (ID)을 사용하려고했습니다. 그러나 그것은 효과가 없었습니다. 아래는 샘플 코드이며 cloudera hadoop UI를 사용하여 자동화하고 있습니다. 마지막 값이 자동으로 업데이트되지 않는 것이 문제입니다. import

2열

1답변

Apache Spark - Dependency Injection Mechanism을 사용할 수 있습니까?

Spark Application에서 Dependency Injection을 활성화/사용하기위한 프레임 워크를 사용할 가능성이 있습니까? 예를 들어 Guice을 사용할 수 있습니까? 그렇다면 문서 작성 방법이나 샘플이 있습니까? 내가 구현 언어로 스칼라 사용하고 , 빌드 도구로 스파크 2.2 및 SBT. 현재 우리 팀은 케이크 패턴을 사용 중입니다. 그러나

0열

1답변

MapR에서 3 개의 노드를 준비하는 방법

큰 데이터 세계를 처음 접하다. CentOS 7에 3 노드 MapR 클러스터를 설치하고 싶었습니다.하지만 MapR을 설치하기 전에 3 노드를 준비하는 방법을 모르겠습니다. 누구든지 3 개의 노드를 준비/구성하는 방법에 대한 지침을 제공 할 수 있습니까?

0열

1답변

큰 문서 용어 문서 행렬을 행렬로 변환

큰 문서 행렬이 있습니다. (6 개 요소, 44.3 Mb) 매트릭스로 변환해야하지만이를 시도 할 때 "100GB를 할당 할 수 없습니다"라는 마법 같은 오류 메시지가 나타납니다. 이 변환을 청크로 수행 할 수있는 패키지/라이브러리가 있습니까? 나는 ff와 bigmemory를 시도했지만 DTM에서 Matrix 로의 변환을 허용하지 않는 것으로 보입니다.

0열

1답변

Tableau 및 Cortana 통합

cortana 카드를 사용하여 powerbi 시각화를 표시하는 것과 유사하게 cortana 인텔리전스 제품군과 함께 작업 할 수있는 방법이 있습니까? 인터넷에서 많은 것을 검색했지만 유용한 정보를 찾을 수 없었습니다. 모든 참조 또는 워크 플로우를 작동하게하는 것이 좋습니다. 미리 감사드립니다.

1열

1답변

Apache Impala에서 하이브의 '폭발'기능과 동일한 기능이 있습니까?

하이브의 함수 폭발은 documented here 입니다. 이것은 본질적으로 하나의 행에서 많은 행을 생성하는 매우 실용적인 기능입니다. 기본 버전은 값이 값 배열 인 열을 가져 와서 각 값에 대해 동일한 행의 복사본을 생성합니다. 임팔라에는 그런 것이 있는지 궁금합니다. 설명서에서 찾을 수 없었습니다.