2017-12-18 7 views
1

aws 글루 콘솔의 마법사에서 글루 작업을 생성했습니다. 작업 생성시 기본 스크립트를 변경하지 않았습니다. 그것은 posgres 데이터베이스 테이블 (소스)에서 데이터를 가져 와서 다른 postgres 데이터베이스 (대상)에 씁니다. ide에서 북마크 사용을 선택했습니다. 태스크가 실행될 때마다 소스에 삽입, 갱신 또는 삭제가 없을 때라도 전체 소스 데이터베이스 테이블을 목표 테이블로 복사합니다. 활성화 된 북마크와 함께, 마지막 실행에서 소스의 변경 사항 만 복사해야하지만 이것은 일어나지 않습니다. 따라서 소스 테이블에 4 개의 행이있는 경우 작업이 실행될 때마다 대상에 4 개의 행이 모두 추가되고 대상의 행 수가 1 씩 증가합니다. 마지막 행의 소스 데이터에 대한 변경 만 처리하도록하려면 어떻게해야합니까? 운영? 또한 북마크는 어떻게 되나요? 행이 2 회 실행 사이에 수정 (SQL 문 업데이트)되면 올바른 행만 "업데이트"됩니까?책갈피가있는 경우에도 AWS 글루는 매번 소스에서 대상으로 전체 데이터를 복사합니다.

답변

1

책갈피는 두 개의 S3 엔드 포인트간에 데이터를 복사 할 때만 작동합니다. JDBC/ODBC는 지원되지 않습니다.

+0

감사합니다. @joshua. 소스에서 점진적 변경 만 대상으로 복사하는 방법은 무엇입니까? –

+0

AWS 지원에서 비슷한 응답을 얻었 기 때문에 Joshua의 대답을 정확하다고 표시했습니다. –

+0

http://docs.aws.amazon.com/glue/latest/dg/add-crawler.html이 문서에서는 다음과 같은 내용을 제안합니다. 크롤러가 일정에 따라 두 번 이상 실행되는 경우 새로운 또는 변경된 파일을 찾거나 테이블을 데이터 저장소에 저장하십시오. 크롤러의 출력에는 이전 실행 이후 발견 된 새 테이블이 포함됩니다. – user3462649