2017-10-25 7 views
0

누군가가 Spark에서 조인 대 Lookups에 대한 토론을 알고 있다면 궁금합니다. 이 페이지를 보았습니다 : Lookup in spark dataframes 모두가 기본적으로 조인은 조회보다 훨씬 뛰어나다 고 말하면서 그 중 하나를 찾거나 심지어 두 가지 주제를 논의하기 위해 내 Google -fu 시도에서 실패했습니다.Spark에서 Lookup과 Join의 차이점

답변

1

Spark DataFrame의 조회와 같은 것은 존재하지 않으므로 다른 솔루션 및 조인 (해시 또는 브로드 캐스트)보다 열등하거나 로컬 데이터 구조를 사용하는 것이 유일한 옵션입니다.

0

조회 및 조인은 관계형 데이터 시스템의 두 가지 개념입니다. 그러므로 일반적인 맥락에서 다른 기능을하기 때문에 하나가 다른 것보다 우월하다고 말하는 것은 실제로 의미가 없습니다. 조회는 단순히 데이터를 찾는 것이고 때로는 키 또는 해시 값을 사용하여 쿼리 속도를 최적화하는 것입니다. 조인은 두 데이터 세트의 공통 요소를 사용하여 새 데이터 세트를 작성합니다.

예.

조회 쿼리 (완전 가상 및 요약) 1

= '안녕하세요'

가입 쿼리 1, 쿼리 2

=

'안녕하세요 세계'

인 경우 쿼리 2세계