bigdata

    0

    1답변

    크기가 약 1300000 * 10000, 약 50GB 인 R로 큰 매트릭스 (데이터 프레임)를 생성합니다. 이 행렬을 적절한 형식으로 저장하려고합니다. 그래서 나중에 데이터를 파이썬이나 다른 프로그램 코드로 보내서 분석을 할 수 있습니다. 물론 데이터를 한 번 공급할 수 없으므로 매트릭스를 부분 집합화하고 조금씩 공급해야합니다. 그러나 행렬을 저장하는 방법

    1

    1답변

    내 질문에 대한 몇 가지 상황. 당신은 여기에서 볼 수 있듯이 : 예를 들어이 토폴로지를 사용하여 HDFS Sqoop을 카프카 로 데이터를로드하기 위해 2 "문"이 있습니다 https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c , FTP 서버 정보 HDFS에서 호스팅

    0

    1답변

    JUNG과 함께 텍스트 파일을 읽고 쓰는 동안 문제가 발생합니다. 상황은 다음과 같습니다. Given은 다중 도트의 좌표와 무게를 포함하는 파일입니다. 예는 다음과 같습니다 6346 6728 5911 156 5 6346 6728 6599 156 10 6346 6728 8555 156 5 나는 같은 수백만 개의 행이 포함 된 파일을 읽고 Directe

    0

    1답변

    TPC DS 쿼리 및 데이터 집합을 어디에서 찾을 수 있습니까? Redshift와 Snowflake에서 성능을 분석해야하는 프로젝트 작업 중 하나입니다.

    0

    1답변

    timestamp가 아닌 다른 컬럼 값을 사용하여 sqoop 가져 오기를 자동화하는 방법이 있습니까? 테이블에 하나의 열 (ID)을 사용하려고했습니다. 그러나 그것은 효과가 없었습니다. 아래는 샘플 코드이며 cloudera hadoop UI를 사용하여 자동화하고 있습니다. 마지막 값이 자동으로 업데이트되지 않는 것이 문제입니다. import

    2

    1답변

    Spark Application에서 Dependency Injection을 활성화/사용하기위한 프레임 워크를 사용할 가능성이 있습니까? 예를 들어 Guice을 사용할 수 있습니까? 그렇다면 문서 작성 방법이나 샘플이 있습니까? 내가 구현 언어로 스칼라 사용하고 , 빌드 도구로 스파크 2.2 및 SBT. 현재 우리 팀은 케이크 패턴을 사용 중입니다. 그러나

    0

    1답변

    큰 데이터 세계를 처음 접하다. CentOS 7에 3 노드 MapR 클러스터를 설치하고 싶었습니다.하지만 MapR을 설치하기 전에 3 노드를 준비하는 방법을 모르겠습니다. 누구든지 3 개의 노드를 준비/구성하는 방법에 대한 지침을 제공 할 수 있습니까?

    0

    1답변

    큰 문서 행렬이 있습니다. (6 개 요소, 44.3 Mb) 매트릭스로 변환해야하지만이를 시도 할 때 "100GB를 할당 할 수 없습니다"라는 마법 같은 오류 메시지가 나타납니다. 이 변환을 청크로 수행 할 수있는 패키지/라이브러리가 있습니까? 나는 ff와 bigmemory를 시도했지만 DTM에서 Matrix 로의 변환을 허용하지 않는 것으로 보입니다.

    0

    1답변

    cortana 카드를 사용하여 powerbi 시각화를 표시하는 것과 유사하게 cortana 인텔리전스 제품군과 함께 작업 할 수있는 방법이 있습니까? 인터넷에서 많은 것을 검색했지만 유용한 정보를 찾을 수 없었습니다. 모든 참조 또는 워크 플로우를 작동하게하는 것이 좋습니다. 미리 감사드립니다.

    1

    1답변

    하이브의 함수 폭발은 documented here 입니다. 이것은 본질적으로 하나의 행에서 많은 행을 생성하는 매우 실용적인 기능입니다. 기본 버전은 값이 값 배열 인 열을 가져 와서 각 값에 대해 동일한 행의 복사본을 생성합니다. 임팔라에는 그런 것이 있는지 궁금합니다. 설명서에서 찾을 수 없었습니다.