2017-11-02 3 views
1

1 년 전 Udemy 과정에서 Jupyter Notebook에서 사용한 Windows 10 노트북에 PySpark (ver 1.1)를 설치했습니다. 1 년 후 Anaconda 3 등을 다시 설치해야했으며 모든 것이 제대로 작동하는 것처럼 보였습니다. 다음 명령을 사용하여 Pyspark를 설치했습니다 : conda install -c conda-forge pyspark. 혼란의 답변 슬루와 기본적으로 동일한 질문을 Windows 10에 PySpark를 설치 한 후 문제가 발생했습니다.

Exception Traceback (most recent call last) <ipython-input-5-03dc2d316f89> in <module>()1 sc = SparkSession.builder.appName('Basics').getOrCreate() 

~\Anaconda3\lib\site-packages\pyspark\sql\session.py in getOrCreate(self) 

167      for key, value in self._options.items(): 
168       sparkConf.set(key, value) 
169      sc = SparkContext.getOrCreate(sparkConf) 
170      # This SparkContext may be an existing one. 
171      for key, value in self._options.items(): 

내가 2.2.0 버전 최신 PySpark를 설치하고, I : 지금은 내 모든 Udemy 스크립트를 사용하려고하고 난 다음 얻을. 필자가 지적했듯이, 1 년 전에이 Win 10 박스에서 PySpark의 이전 버전을 실행했습니다.

어떤 아이디어 나 힌트가 있습니까?

+0

SO; 만약 당신이 대답을 유용하게 찾았다면, * accept * it을 잊지 마시기 바랍니다 - 감사합니다. – desertnaut

답변

0
PyPi 또는 아나콘다 (즉 pip 또는 conda 설치된) 하지 전체 Pyspark 기능을 포함하지에서

Pyspark; 이미 존재하는 클러스터에서의 스파크 설치에만 사용하기위한 것이며,이 경우에는 avoid downloading the whole Spark distribution locally을 원할 수 있습니다. PyPi docs에서 (이 정보는 역시 Anaconda Cloud에 있어야하지만, 불행히도 그렇지 않다) : 스파크

파이썬 포장은 다른 사용 사례 모두를 대체하기위한 것이 아닙니다. 이 Python 패키지 버전의 Spark는 (기존의 Spark standalone, YARN 또는 Mesos)과 호환되지만 자신의 독립 실행 형 스파크 클러스터를 설정하는 데 필요한 도구는 포함하지 않습니다. Apache Spark downloads page에서 Spark 정식 버전을 다운로드 할 수 있습니다.

따라서 위 링크에서 전체 Spark 배포판 (Pyspark가 필수적인 부분)을 다운로드해야합니다. 확실히 이것은 정확하게 당신이 과거에했던 것입니다. 왜냐하면 pip/conda 옵션이 최근에야 Spark 2.1에서 사용 가능 해졌기 때문입니다.