apache-spark

4열

2답변

SparkPu에서 비교적 새로운 것으로 독립 실행 형 12 코어 3 머신 클러스터에서 SparkPi 예제를 실행 해 보았습니다. 필자가 이해하지 못하는 것은 하나의 슬라이스로이 예제를 실행하면 12 개의 슬라이스를 사용하는 것과 비교할 때 더 나은 성능을 얻을 수 있다는 것입니다. 병렬 처리 기능을 사용할 때도 마찬가지였습니다. 시간은 각 슬라이스를 추가

0열

1답변

파이썬

와 아파치 스파크 mllib에 로지스틱 회귀 분석의 최적화를 설정하는 방법 지금은 아파치 스파크 mllib def mapper(line): feats = line.strip().split(',') label = feats[len(feats)-1] feats = feats[:len(feats)-1] feats.insert(

1열

1답변

스칼라 스파크/샤크 : Hortonworks의 기존 하이브 테이블에 액세스하는 방법?

주제에 대한 접근 방식에 대한 설명을 찾으려고합니다. 도움을 받으십시오. Hortonworks에서 Hadoop 2.2.0을 설치하여 쿼리해야하는 기존 하이브 테이블을 설치했습니다. Hive SQL은 단일 노드와 클러스터에서도 극도로 부당하게 느립니다. 상어가 더 빨리 일하기를 바랍니다. 스파크/샤크 문서에서 나는 기존의 하이브 테이블로 상어를 만드는 법을

2열

1답변

스파크 로그 통합

내 스파크 작업에 대한 통합 뷰를 얻고 싶습니다. 저는 RDD를 생성하는 시스템에서 log4j를 사용하고 있습니다. 배포되는 다양한 작업도 log4j를 사용하고 있습니다. 그러면 로컬 로그 파일로 끝난 다음 작업이 분산 된 각 노드에 파일을 로깅합니다. 이러한 모든 로그를 함께 가져올 수있는 방법이 내장되어 있습니까? 서버 컴퓨터와 각 노드를 모두보아야하는

11열

2답변

Spark를 사용하여 Hadoop HDFS 디렉토리의 모든 파일을 나열 하시겠습니까?

Hadoop 디렉토리의 모든 텍스트 파일을 반복하고 "error"라는 단어가 모두 나오길 원합니다. hadoop fs -ls /users/ubuntu/을 실행하여 Apache Spark Scala API를 사용하여 디렉토리의 모든 파일을 나열 할 수 있습니까? first example 주어진에서 는 스파크 상황에 맞는 개별적으로 같은 것을 통해 전용 액세스

5열

3답변

Pyspark 설치시 문제가 발생했습니다.

pyspark를 사용하여 로컬 시스템에서 Spark를 실행하고 싶습니다. 완료를 설치 sbt/sbt assembly $ ./bin/pyspark 하지만 pyspark은 (전액) 다음과 같은 오류가 발생합니다 실행할 수 없습니다 : here에서 나는 명령을 사용 138:spark-0.9.1 comp_name$ ./bin/pyspark Python 2.

1열

1답변

은의 우리가 카산드라 일부 테이블에서 채워 기존의 여러 RDDs이 supose하자, 통신 산업의 맥락에서 불꽃

하지 쌍 RDDs 가입 : 다음과 같이 유형이 정의 val callPrices: RDD[PriceRow] val calls: RDD[CallRow] val offersInCourse: RDD[OfferRow] 을 /** Represents the price per minute for a concrete hour */ case class PriceR

13열

4답변

Spark 작업에 대한 앱 실행 ID 받기

Spark 작업을 실행 한 곳에서 해당 작업의 고유 ID를 얻고 싶습니다. Spark 마스터 노드 웹 사이트를 통해이 ID를 볼 수 있습니다. 그것은 다음과 같습니다 : ID: app-20140429125304-0452 실행중인 작업을 만들 때 어떤 방법이 있습니까? 어쩌면 SparkContext를 통해?

3열

1답변

Java에서 Spark SVMModel을 실행하는 데 어려움이 있습니다. - java.lang.IncompatibleClassChangeError

Java를 사용하여 Spark을 실행하려고했습니다. 문제가 발생하면 IntelliJ를 IDE로 사용하고 있습니다. 나는 여기에서 발견 된 calculate-pi 코드를 실행하여 꽤 약간의 비웃음 끝에 성공적으로 https://spark.apache.org/examples.html을 찾았다. "java.lang.ClassNotFoundException : [

-1열

2답변

S3 요청자 지불을 사용하도록 Hadoop 구성

Hadoop (Spark를 통해)을 사용 중이며 요청자가 지불하는 S3N 콘텐츠에 액세스해야합니다. 일반적으로 jets3t.properties에서 httpclient.requester-pays-buckets-enabled = true을 활성화하면됩니다. 그러나 이것을 설정하고 Spark/Hadoop은이를 무시하고 있습니다. 아마도 jets3t.propert