2017-11-11 13 views
1

안녕하세요, 어쩌면 어리석은 질문 일지 모르지만 RStudio의 Spark에서 임시 테이블에 액세스하려고합니다. Spark 클러스터가 없으며 모든 것을 로컬 PC에서만 실행합니다. 내가 IntelliJ를 통해 스파크를 시작하면 , 인스턴스가 잘 실행 :RStudio-sparklyr을 사용하여 IntelliJ에서 제공하는 로컬 Spark에 연결하십시오.

17/11/11 10:11:33 INFO Utils: Successfully started service 'sparkDriver' on port 59505. 
17/11/11 10:11:33 INFO SparkEnv: Registering MapOutputTracker 
17/11/11 10:11:33 INFO SparkEnv: Registering BlockManagerMaster 
17/11/11 10:11:33 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information 
17/11/11 10:11:33 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up 
17/11/11 10:11:33 INFO DiskBlockManager: Created local directory at C:\Users\stephan\AppData\Local\Temp\blockmgr-7ca4e8fb-9456-4063-bc6d-39324d7dad4c 
17/11/11 10:11:33 INFO MemoryStore: MemoryStore started with capacity 898.5 MB 
17/11/11 10:11:33 INFO SparkEnv: Registering OutputCommitCoordinator 
17/11/11 10:11:33 INFO Utils: Successfully started service 'SparkUI' on port 4040. 
17/11/11 10:11:34 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://172.25.240.1:4040 
17/11/11 10:11:34 INFO Executor: Starting executor ID driver on host localhost 
17/11/11 10:11:34 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 59516. 
17/11/11 10:11:34 INFO NettyBlockTransferService: Server created on 172.25.240.1:59516 

하지만 포트에 대해 확실하지 않다, 나는 RStudio/sparklyr에서 선택해야합니다 :

sc <- spark_connect(master = "spark://localhost:7077", spark_home = "C://Users//stephan//Downloads//spark//spark-2.2.0-bin-hadoop2.7", version = "2.2.0") 
Error in file(con, "r") : cannot open the connection 
In addition: Warning message: 
In file(con, "r") : 
    cannot open file 'C:\Users\stephan\AppData\Local\Temp\Rtmp61Ejow\file2fa024ce51af_spark.log': Permission denied 

나는 다른 포트를 시도 , 59516, 4040처럼 ...하지만 모두 같은 결과를 낳았습니다. 파일이 잘 작성되었는지 인해 같아요 사용 권한 거부 메시지가 무시 될 수 있습니다

17/11/11 01:07:30 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master localhost:7077 

사람이 내가 로컬 실행 스파크와 RStudio 사이의 연결을 설정하는 방법, 나에게 도움을 기쁘게 할 수 있지만, RStudio없이 실행 다른 스파크 인스턴스? 독립 스파크 클러스터를 실행

덕분에 스테판

답변

0

여기 가능성이 경우 귀하의 IDE에서 local 모드에서 스파크를 실행하는 것과 같은 일이 아닙니다. local 모드는 지속적인 서비스를 생성하지 않습니다.

  • 다운로드 스파크 바이너리 :

    은 자신의 "pseudodistributed"클러스터를 실행합니다.
  • $SPARK_HOME/sbin/start-master.sh 스크립트를 사용하여 스파크 마스터를 시작하십시오.
  • $SPARK_HOME/sbin/start-slave.sh 스크립트를 사용하고 master url을 전달하여 작업자를 시작하십시오.

테이블을 공유하려면 적절한 메타 스토어 (Derby가 아님)가 필요합니다.

+0

나는 본다. 그건 너무 안좋아 : ( 로컬 실행에 대한이 스레드를 따라 갔다 : https://stackoverflow.com/questions/36593446/failed-to-start-master-for-spark-in-windows 내 설정을 "spark : //172.25.240.1:7077 ". 이제 응용 프로그램을 실행하면 연락이되지만 StreamingContext는 더 이상 작동하지 않으며 streamingContext.start() 및 streamingContext.awaitTermination()에 의해 실행됩니다. 내가 Intellij에서 실행, 그것은 스트림을 잡으려고. Btw. 스트림은 실제로 나 자신에 의해 생성 된 로컬 소켓 스트림입니다 – Stephan