2016-06-13 2 views
0

잘하고 있습니다.Microsoft Azure에서 Pyspark 스크립트를 자동화하는 방법

저는 Microsoft Azure뿐 아니라 Spark를 처음 사용합니다. 프로젝트 요구 사항에 따라 우리는 HDInsight 클러스터에 설치된 jupyter 노트북을 통해 pyspark 스크립트를 개발했습니다. 날짜가되기 전까지는 우리가 코드를 실행했지만 지금은 스크립트를 자동화해야합니다. Azure Datafactory를 사용하려고했지만 거기에서 pyspark 스크립트를 실행할 수있는 방법을 찾지 못했습니다. 또한 오지를 사용하려고했지만 사용법을 알 수 없었습니다.

사람들이 푸른 하늘에서 pyspark 스크립트를 자동화/예약하는 방법을 알려주십시오.

감사합니다. Shamik.

답변

0

Azure Data Factory는 오늘 Spark에 대한 일류 지원을 제공하지 않습니다. 우리는 앞으로 이러한 통합을 추가하기 위해 노력하고 있습니다. 그 때까지는 ADF 맵 축소 작업을 사용하여 spark submit을 호출하는 jar를 제출하는 Github의 샘플을 게시했습니다.

여기 봐 주시기 바랍니다 : https://github.com/Azure/Azure-DataFactory/tree/master/Samples/Spark

+0

당신에게 Gaurav 감사, 나는이 방법을 시도 할 것이다. Azure HdInsight에서 pyspark prohram을 예약 할 수있는 방법이 있습니까? – Shamik

+0

링크에서 언급 한 예제를 사용하여 'style'을 발견했습니다 : 'StartOfInterval'은 출력 및 파이프 라인의 가용성 설정이 일치하지 않는다는 예외를 생성합니다. 파이프 라인 json에서 해당 특성을 제거하면 성공적으로 배포됩니다. 이제 실행 여부를 확인합니다. – Shamik

+0

위에서 언급 한 링크를 사용할 수 없습니다. – Arron