원본 시스템 데이터웨어 하우스에서 HDFS로 배치하려고하는 매우 큰 테이블이 있지만 한정된 대역폭을 사용합니다. 필자가 필요로하는 컬럼을 끌어오고 테이블을 가져 오는 런타임을 최소화하고 싶습니다.조인이 포함 된 테이블에서 증분 Sqoop을 수행 하시겠습니까?
는Sqoop을 현재 같은 것을 가져옵니다 :
SELECT
ColumnA,
ColumnB,
....
ColumnN
FROM
TABLE_A
LEFT JOIN
TABLE_B
ON
...
LEFT JOIN
TABLE_N
....
데이터가 스타 스키마 형식으로 저장됩니다 주어진 증분 Sqoop을을 수행 할 수 있는가, 그리고 치수는 독립적으로 사실을 갱신 할 수 ?
또는 전체 테이블을 sqoop하고 필요한 열을 점진적으로 매핑하고 HDFS 측에서 조인을 수행하는 유일한 솔루션입니까?
내 경우에는 lastmodified 모드를 사용해야 할 것입니다. KEY를 사용하면 확실히 작동하지 않을 것입니다. 나는 소스 테이블을 체크 아웃 할 것입니다. 거기에 lastmodified에 대한 여러 필드를 사용하는 방법이 있나요? – boethius
좋습니다. 나는 이것이 나를 끌어 들일만큼 충분하다고 생각한다. 나는 많은 사용자들이 자체적으로 증가하는 문제를 안고 있지만 적어도 시작할 수는있다. 앞으로 발행 될 문제가 있으면 별도의 질문을 할 것입니다. – boethius