2014-09-12 2 views
1

NLP 처리 등을 위해 pyspark에서 작업 중입니다. TextBlob Python 라이브러리를 사용하고 있습니다.Pyspark 클러스터 모드에서 작업자 노드에 외부 라이브러리 설치

일반적으로 독립형 모드에서는 외부 Python 라이브러리를 쉽게 설치할 수 있습니다. 클러스터 모드에서 이러한 라이브러리를 작업자 노드에 원격으로 설치하려면 문제가 있습니다. 각 작업자 컴퓨터에 Python 경로에 이러한 libs를 설치하기 위해 액세스 할 수 없습니다.

나는 파일 을 발송하기 위해 Sparkcontext pyfiles 옵션을 사용하려고 시도했지만, 문제는 이러한 Python 패키지가 작업자 컴퓨터에 설치되어야한다는 것입니다.

다른 방법으로이 lib-Textblob을 파이썬 경로에서 사용할 수 있습니까?

답변

1

나는 .zip 파일을 전달하기 위해 Sparkcontext pyfiles 옵션을 사용하려고 시도했지만 문제는 이러한 Python 패키지를 작업자 컴퓨터에 설치해야한다는 것입니다.

난 당신이 지역 defautl URL 스키마 (:) 지역 사용 같아요를 - URI를 현지로 시작 :/각 작업자 노드에서 로컬 파일로 존재 것으로 예상된다., 모든 집행자가 끌어 :이 등이

또 다른 URL 스키마가 파일, 아니 네트워크 IO가 발생되지 않음을 의미하고, 각 근로자에 ​​밀려, 또는 NFS, 글루 스터 FS (GlusterFS)를 통해 공유되는 큰 파일/JAR가 잘 작동 파일을 드라이버 HTTP 서버에서 자동으로 가져 오면 작업자 컴퓨터에 해당 파일을 설치할 필요가 없습니다. 파일 : - 절대 경로 및 파일 :/URI는 드라이버의 HTTP 파일 서버에서 제공하고 모든 실행 프로그램은 드라이버 HTTP 서버에서 파일을 가져옵니다.