유형 II를 들어, .CoGroupByKey()테이블 행 PCollection을 키, 값 PCollections로 변환하는 방법은 무엇입니까?
상황 기본적으로 나는 두 개의 큰 pCollections을 가지고 있고이 둘 사이의 차이를 찾을 수 있어야에 입력에 필요한 pCollections에 pCollections을 변환하는 방법에 대한 설명서가 없습니다 ETL이 변경되면 (pColl1에없는 경우 pColl2에서 중첩 된 필드에 추가) BigQuery에서 이러한 레코드의 기록을 유지할 수있게됩니다.
파이프 라인 아키텍처 : 2 pCollections에
- 읽기 BQ 테이블 : dwsku 및 제품.
- 두 세트에 CoGroupByKey()를 적용하여 결과를 반환합니다. -> 결과
- dwsku의 모든 변경 사항을 찾아내어 제품에 중첩합니다.
도움이 될 것입니다. 그래서 내가 성취해야 할 것과 동일한 일을하는 자바 링크를 발견했습니다 (그러나 파이썬 SDK에는 아무것도 없습니다).
Convert from PCollection<TableRow> to PCollection<KV<K,V>>
아파치 빔, 특히 파이썬 SDK에 대한 문서/지원이 있습니까? 데이터-CoGroupByKey()
작업을 진행하기 위해