다른 변환 (조인, 맵 등)으로 데이터 집합을 만들고이를 hbase의 테이블 A에 저장했다고 가정 해 봅니다. 이제 특정 열을 선택하여 hbase의 다른 테이블에 동일한 데이터 세트를 저장하려고합니다. 이 경우 테이블 A에 저장 한 후에도 persist 함수를 사용해야합니까? 또는 select 함수 만 사용하면 문제가되지 않습니까? 예를 들어데이터 집합을 재사용 할 때 spark persist 함수 사용
:
Dataset<Row> ds = //computing dataset by different transformations
//save ds to table A in hbase
ds.persist();
Dataset<Row> ds2 = ds.select(col("X"));
//save ds2 to table B in hbase
Dataset<Row> ds3 = ds.select(col("Y"),col("Z"));
//save ds3 to table C in hbase
ds.unpersist();