1

우리는 다양한 데이터베이스에 대한 기본 옵션으로 MS SQL 서버를 보유하고 있으며 수백 개의 저장 프로 시저를 정기적으로 실행합니다. 이제 우리는 완전히 큰 데이터 스택으로 이동하고 있습니다. 배치 작업을 위해 Spark을 사용하고 있습니다. 그러나 우리는 이미 이러한 저장 프로 시저를 만드는 데 엄청난 노력을 기울였습니다. Spark 위에 저장 프로 시저를 재사용 할 수있는 방법이 있습니까? 또는 처음부터 쓰지 않고 Spark로 마이그레이션 할 수있는 쉬운 방법이 있습니까?스파크에 MS SQL 서버 저장 프로 시저

또는 Cloudera distribution/impala 같은 프레임 워크가이 요구 사항을 해결합니까?

답변

0

아니요, 말할 수있는 한 멀리 있지 않습니다. 매우 유사한 논리적 흐름을 사용할 수도 있지만 T-SQL을 Spark로 변환하려면 많은 시간과 노력이 필요합니다. 스칼라로 직접 가서 Python/PySpark로 시간 낭비하지 않는 것이 좋습니다.

변환을위한 엄지 손가락의 제 규칙은 SQL이 스파크 (sqlContext.sql("SELECT x FROM y"))에서 SQL로 저장 발동에있어 무엇을하려고하지만, 스파크 DataFrames 그래서 어떤 UPDATE 또는 DELETE 행동이 변화되어야 할 것이다 불변 알고 있어야하는 것입니다 새 수정 된 DataFrame을 출력합니다.