2014-04-01 3 views
4

AWS 데이터 파이프 라인에 대해 지원되는 데이터 소스와 관련된 설명서를 찾으려고합니다. SQL Server RDS 데이터를 S3로 내 보내면됩니다. Data Pipeline은 RDS를 소스로 사용할 수 있다고 말한 많은 문서를 찾고 있습니다 만, 모든 예제는 MySQL RDS만을위한 것입니다.AWS 데이터 파이프 라인 지원 SQL Server RDS

누구나 데이터 파이프 라인 및 SQL Server RDS 사용 경험이 있습니까? 그렇다면 SQL Server RDS (예 : MySqlDataNode, SqlDataNode)에 연결하기 위해 어떤 데이터 노드를 사용합니까?

최종 대상은 SQL Server RDS에서 AWS Red Shift로 데이터를 이동하는 것입니다.

감사합니다.

답변

1

데이터 파이프 라인을 사용하여이를 포기했습니다. 나는 이것을 위해 일반적인 ETL 도구를 사용할 것을 제안한다. Windows 서버를 사용하고 있다면 SSIS가 최선의 선택 일 것입니다. 그렇지 않으면 Pentaho 또는 Talend를 조사하십시오.

비 ASCII 데이터가 있습니까? SQL Server의 UTF16-LE에서 UTF8로 데이터를 가져 오는 것이 가장 큰 골치 거리였습니다. 나는 내 블로그 (http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)에 해결책의 일부를 썼다.

0

데이터 파이프 라인은 여전히 ​​MySQL RDS를 지원합니다.

하나의 옵션은 EMR 클러스터를 스핀 업하고 sqoop을 사용하는 것입니다. sqoop을 사용하여 s3으로 가져 와서 COPY 명령 (또는 데이터 파이프 라인)을 사용하여 Redshift로 직접로드 할 수 있습니다.

데이터 파이프 라인 EMRResource가 있습니다. 마스터에 sqoop을 다운로드하고 설정하고 관련 jdbc 드라이버를 가져 오는 부트 스트랩 작업을 만들어야합니다.

EMRActivity는 마스터의 쉘 스크립트에서 sqoop 명령을 실행하고 싶을 때 jar 파일을 원한다고합니다. 나는 그 일이 얼마나 쉽지 않은지 잘 모르겠습니다. 어쩌면 EMRResource에 대한 ShellCommandActivity일까요?