2016-07-07 7 views
1

Azure에서 HDInsight 클러스터가 실행 중이지만 클러스터 생성시 에지/게이트웨이 노드를 회전시킬 수 없습니다. 그래서spark-shell 오류 : 스키마에 대한 FileSystem이 없습니다. wasb

echo 'deb http://private-repo-1.hortonworks.com/HDP/ubuntu14/2.x/updates/2.4.2.0 HDP main' >> /etc/apt/sources.list.d/HDP.list 
echo 'deb http://private-repo-1.hortonworks.com/HDP-UTILS-1.1.0.20/repos/ubuntu14 HDP-UTILS main' >> /etc/apt/sources.list.d/HDP.list 
echo 'deb [arch=amd64] https://apt-mo.trafficmanager.net/repos/azurecore/ trusty main' >> /etc/apt/sources.list.d/azure-public-trusty.list 
gpg --keyserver pgp.mit.edu --recv-keys B9733A7A07513CAD 
gpg -a --export 07513CAD | apt-key add - 
gpg --keyserver pgp.mit.edu --recv-keys B02C46DF417A0893 
gpg -a --export 417A0893 | apt-key add - 
apt-get -y install openjdk-7-jdk 
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 
apt-get -y install hadoop hadoop-hdfs hadoop-yarn hadoop-mapreduce hadoop-client openssl libhdfs0 liblzo2-2 liblzo2-dev hadoop-lzo phoenix hive hive-hcatalog tez mysql-connector-java* oozie oozie-client sqoop flume flume-agent spark spark-python spark-worker spark-yarn-shuffle 

를 설치하여이 가장자리/게이트웨이 노드를 작성되었다 그럼 난 /usr/share/java//usr/lib/hdinsight-datalake//etc/spark/conf//etc/hadoop/conf/

/usr/lib/python2.7/dist-packages/hdinsight_common/을 복사하지만 spark-shell을 실행할 때 나는 여기

java.io.IOException: No FileSystem for scheme: wasb 

가 가득 오류를 다음 얻을 스택 https://gist.github.com/anonymous/ebb6c9d71865c9c8e125aadbbdd6a5bc

패키지/jar가 여기에 누락되어 있는지 확실하지 않습니다.

누구나 내가 뭘 잘못하고 있는지 알 수 있습니까?

감사

+0

의 'hadoopConfiguration'에 매개 변수를 전달 할 수있다. 가능한 지원 여기에 : http://stackoverflow.com/questions/32264020/unable-to-connect-with-azure-blob-storage-with-local-hadoop – aaronsteers

답변

0

Microsoft에서 하이 닝은 아파치 하둡 설치에 설치 wasb에게 훌륭한 블로그 게시물을 작성했습니다.

  1. 로컬 설치의 항아리를 찾기 하둡 클래스 경로

    1.1 hadoop-azure-*.jarazure-storage-*.jar 추가 : 여기

    는 요약입니다. HDInsight 클러스터의/usr/hdp/current/hadoop-client 폴더에 있습니다.

    1.2 업데이트 HADOOP_CLASSPATH의 변수는 hadoop-env.sh입니다. java 클래스 경로는 부분 와일드 카드를 지원하지 않으므로 정확한 jar 이름을 사용하십시오.

  2. 업데이트 코어를 site.xml

    <property>   
         <name>fs.AbstractFileSystem.wasb.Impl</name>       
         <value>org.apache.hadoop.fs.azure.Wasb</value> 
    </property> 
    
    <property> 
         <name>fs.azure.account.key.my_blob_account_name.blob.core.windows.net</name> 
         <value>my_blob_account_key</value> 
    </property> 
    
    <!-- optionally set the default file system to a container --> 
    <property> 
         <name>fs.defaultFS</name>   
         <value>wasb://[email protected]_blob_account_name.blob.core.windows.net</value> 
    </property> 
    

여기에 정확한 단계를 참조하십시오 이 https://github.com/hning86/articles/blob/master/hadoopAndWasb.md

+0

제안 주셔서 감사하지만 특정 사용 사례에 대해 나는 클라이언트를 사용할 수 없다. 클러스터 배포를 통해 배포됩니다. – roy

1

스파크 쉘에서 푸른 저장 (wasb 및 wasbs 파일)를 설정하는 또 다른 방법은 다음과 같습니다

  1. azure-storage 및 hadoop-azure jars는 spark insta ./jars 디렉토리에 복사하십시오. llation.
  2. 파라미터 -jars [이들 병에 노선으로 콤마 (,)로 구분 실시 예와 스파크 쉘 실행

    
    sc.hadoopConfiguration.set("fs.azure", "org.apache.hadoop.fs.azure.NativeAzureFileSystem") 
    sc.hadoopConfiguration.set("fs.azure.account.key.my_account.blob.core.windows.net", "my_key") 
    
  3. : 스파크 컨텍스트에 다음 라인을 추가

    
    $ bin/spark-shell --master "local[*]" --jars jars/hadoop-azure-2.7.0.jar,jars/azure-storage-2.0.0.jar 
    
  4. 
    sc.textFile("wasb://[email protected]_account_host/myfile.txt").count() 
    
  5. 이 :
  6. 즐기십시오 :
  7. 간단한 쿼리를 실행 이와

하여 설정하면 수 쉽게 설정 스파크 응용 프로그램을, 내가 유사한 문제에 대한 해결책을 찾고 현재 스파크 상황

+0

코드 예제에서 거꾸로 쉼표를 사용하는 사람들은 ... –

+0

내 잘못입니다. 나는 코드 스 니펫을 저장하기 위해 Mac Notes 사용을 멈춰야 만한다. :) –

+0

넵, 훨씬 나아졌다. :) 그리고 나 역시도 좋은 해결책이다. –