하이브에 일부 테이블이 있습니다. 이 테이블은 점진적으로 데이터를 추가합니다.증분 데이터를 사용하여 pyspark에서 데이터 프레임을 만드는 방법
이제 하이브에있는 표를 사용하여 pyspark에 data frame
을 만들었습니다. data frame
에서 조 변경을 수행하고 새 테이블을 하이브에 배치 된 data frame
으로 변경했습니다.
내일 새 하이브리드 테이블에 100 개의 새 행이 추가됩니다. 이제이 100 개의 새로운 행을 사용하여 새로운 data frame
을 만들고 조인하고 기존의 전치 된 하이브 테이블에 추가하려고합니다.
어떻게하면 pyspark를 사용하여이를 달성 할 수 있습니까?
하이브 테이블에 추가 된 새 100 개의 행을 식별하는 방법이 있습니까? 100 개의 행만 기반으로 새로운 데이터 프레임을 쉽게 만들 수 있습니까 ?? –
@ GauravDhama 그래, 우리가 데이터 프레임을 만들 수있는 방법을 시도합니다 기본 아이디어있어 –