나는 스파크를 마루와 함께 사용합니다. 필자는 가장 자주 사용하는 열을 캐시에 저장하고 다른 하나는 디스크에 보관할 수 있기를 원합니다.DataFrame의 부분 수직 캐싱
myDataFrame.select("field1").cache
myDataFrame.select("field1").count
myDataFrame.select("field1").where($"field1">5).count
myDataFrame.select("field1", "field2").where($"field1">5).count
네 번째 라인은 캐시를 사용하지 않습니다 내가 좋아하는 뭔가를 실행 해요.
여기에 도움이되는 간단한 해결책이 있습니까?
감사합니다. 실제로 여기에 쓴 것은 (field1) 파르 케는 원주 형식이기 때문에 캐시되지 않은 필드에 대해서만 디스크에 액세스 할 수있는 캐시를 얻으려고합니다. 여기에서는 조인이 가능한 해결책이지만 대부분의 경우 조인이 매우 비쌉니다. – roee