apache-spark

    4

    2답변

    SparkPu에서 비교적 새로운 것으로 독립 실행 형 12 코어 3 머신 클러스터에서 SparkPi 예제를 실행 해 보았습니다. 필자가 이해하지 못하는 것은 하나의 슬라이스로이 예제를 실행하면 12 개의 슬라이스를 사용하는 것과 비교할 때 더 나은 성능을 얻을 수 있다는 것입니다. 병렬 처리 기능을 사용할 때도 마찬가지였습니다. 시간은 각 슬라이스를 추가

    0

    1답변

    와 아파치 스파크 mllib에 로지스틱 회귀 분석의 최적화를 설정하는 방법 지금은 아파치 스파크 mllib def mapper(line): feats = line.strip().split(',') label = feats[len(feats)-1] feats = feats[:len(feats)-1] feats.insert(

    1

    1답변

    주제에 대한 접근 방식에 대한 설명을 찾으려고합니다. 도움을 받으십시오. Hortonworks에서 Hadoop 2.2.0을 설치하여 쿼리해야하는 기존 하이브 테이블을 설치했습니다. Hive SQL은 단일 노드와 클러스터에서도 극도로 부당하게 느립니다. 상어가 더 빨리 일하기를 바랍니다. 스파크/샤크 문서에서 나는 기존의 하이브 테이블로 상어를 만드는 법을

    2

    1답변

    내 스파크 작업에 대한 통합 뷰를 얻고 싶습니다. 저는 RDD를 생성하는 시스템에서 log4j를 사용하고 있습니다. 배포되는 다양한 작업도 log4j를 사용하고 있습니다. 그러면 로컬 로그 파일로 끝난 다음 작업이 분산 된 각 노드에 파일을 로깅합니다. 이러한 모든 로그를 함께 가져올 수있는 방법이 내장되어 있습니까? 서버 컴퓨터와 각 노드를 모두보아야하는

    11

    2답변

    Hadoop 디렉토리의 모든 텍스트 파일을 반복하고 "error"라는 단어가 모두 나오길 원합니다. hadoop fs -ls /users/ubuntu/을 실행하여 Apache Spark Scala API를 사용하여 디렉토리의 모든 파일을 나열 할 수 있습니까? first example 주어진에서 는 스파크 상황에 맞는 개별적으로 같은 것을 통해 전용 액세스

    5

    3답변

    pyspark를 사용하여 로컬 시스템에서 Spark를 실행하고 싶습니다. 완료를 설치 sbt/sbt assembly $ ./bin/pyspark 하지만 pyspark은 (전액) 다음과 같은 오류가 발생합니다 실행할 수 없습니다 : here에서 나는 명령을 사용 138:spark-0.9.1 comp_name$ ./bin/pyspark Python 2.

    1

    1답변

    하지 쌍 RDDs 가입 : 다음과 같이 유형이 정의 val callPrices: RDD[PriceRow] val calls: RDD[CallRow] val offersInCourse: RDD[OfferRow] 을 /** Represents the price per minute for a concrete hour */ case class PriceR

    13

    4답변

    Spark 작업을 실행 한 곳에서 해당 작업의 고유 ID를 얻고 싶습니다. Spark 마스터 노드 웹 사이트를 통해이 ID를 볼 수 있습니다. 그것은 다음과 같습니다 : ID: app-20140429125304-0452 실행중인 작업을 만들 때 어떤 방법이 있습니까? 어쩌면 SparkContext를 통해?

    3

    1답변

    Java를 사용하여 Spark을 실행하려고했습니다. 문제가 발생하면 IntelliJ를 IDE로 사용하고 있습니다. 나는 여기에서 발견 된 calculate-pi 코드를 실행하여 꽤 약간의 비웃음 끝에 성공적으로 https://spark.apache.org/examples.html을 찾았다. "java.lang.ClassNotFoundException : [

    -1

    2답변

    Hadoop (Spark를 통해)을 사용 중이며 요청자가 지불하는 S3N 콘텐츠에 액세스해야합니다. 일반적으로 jets3t.properties에서 httpclient.requester-pays-buckets-enabled = true을 활성화하면됩니다. 그러나 이것을 설정하고 Spark/Hadoop은이를 무시하고 있습니다. 아마도 jets3t.propert