2017-02-18 4 views
0

하이브에 일부 테이블이 있습니다. 이 테이블은 점진적으로 데이터를 추가합니다.증분 데이터를 사용하여 pyspark에서 데이터 프레임을 만드는 방법

이제 하이브에있는 표를 사용하여 pyspark에 data frame을 만들었습니다. data frame에서 조 변경을 수행하고 새 테이블을 하이브에 배치 된 data frame으로 변경했습니다.

내일 새 하이브리드 테이블에 100 개의 새 행이 추가됩니다. 이제이 100 개의 새로운 행을 사용하여 새로운 data frame을 만들고 조인하고 기존의 전치 된 하이브 테이블에 추가하려고합니다.

어떻게하면 pyspark를 사용하여이를 달성 할 수 있습니까?

+0

하이브 테이블에 추가 된 새 100 개의 행을 식별하는 방법이 있습니까? 100 개의 행만 기반으로 새로운 데이터 프레임을 쉽게 만들 수 있습니까 ?? –

+0

@ GauravDhama 그래, 우리가 데이터 프레임을 만들 수있는 방법을 시도합니다 기본 아이디어있어 –

답변

0

하이브의 의미는이 기능을 제공하기에 충분하지 않습니다. 데이터는 콘텐츠, 파일 또는 메타 데이터 프로세스를 통해 식별 가능해야합니다.

콘텐츠 식별 가능 : 데이터에는 표에 대한 쿼리를 만들 수 있지만 관심있는 행만 필터링 할 수있는 시간 또는 날짜 스탬프가 포함되어 있습니다.는 하이브 인터페이스를 건너 뛰고 예를 들어, 개별 파일에 Modify 또는 Change timesteamps를 사용하여 HDFS/POSIX의 데이터를 검색하려고 : 파일에 의해

식별. 파일을 새로운 데이터 프레임으로 직접로드하십시오.

메타 데이터 프로세스로 식별 가능 : 빌드 한 아키텍처에서 Apache NiFi, Kafka 및 Cloudera Navigator를 사용하여 파일 및 데이터 처리와 관련된 메타 데이터 계보를 제공합니다. 아키텍처에 수집 된 데이터에 대한 메타 데이터가 포함되어있는 경우이를 사용하여 필요한 파일/레코드를 식별 할 수 있습니다.