apache-spark

    1

    1답변

    spark shell을 사용하여 HDFS에서 두 파일을 결합하려고합니다. 두 파일 탭 분리되고 난 코드 을 시도하지만 모든 출력 val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily")) val ny_daily_split = ny_daily.map(li

    6

    2답변

    현재 한 줄당 최대 1000 개의 열과 함께 풍부한 시간 기반 데이터를 저장하고 분석하는 방법을 연구하고 있습니다. 현재 Cassandra와 Datastax Enterprise가 제공하는 Solr, Hadoop 또는 Spark와 함께 거친 부분에 대한 나의 요구 사항을 충족시키는 것 같습니다. 그러나 악마는 세부 사항에 있습니다. 약 1000 개의 열 중에

    0

    1답변

    나는 기존의 Integer ArrayList의 요소를 추가하는 Spark 프로그램을 찾고있었습니다. 아파치 스파크의 모든 변환과 액션을 거쳤지만 추가 할 수있는 스파크 프로그램을 찾지 못했습니다. 집단. 누군가가 위의 코드를 작성하는 방법을 말해 줄 수 있다면, 즉 스파크에 arraylist의 요소를 추가하면 큰 도움이 될 것입니다. 감사합니다.

    1

    1답변

    저는 scala 0.9.0에서 k-means 클러스터링을 실행 중이며 n 개의 시스템간에 데이터가 분산되어 k 개의 센터 데이터 포인트를 계산하는 방법을 이해하려고합니다. k- 평균 클러스터링이란 무엇인지 알고 있지만 데이터가 어떻게 나누어지고 분산 계산 (계산 및 축소)에서 계산되는지 알고 싶습니다. 이 스칼라 버전에서 KMeansDataGenerator

    22

    3답변

    Apache Spark Shell의 Executor 메모리 (및 기타 구성)를 변경하는 방법은 무엇입니까? 특히 스파크 셸의 작업에서 해당 구성 설정을 사용하도록 시작할 때 -Dspark-cores-max = 12와 같이 스파크 - 쉘에 플랫을 제공하고 싶습니다.

    2

    2답변

    나는 "자바에있는 독립 실행 형 응용 프로그램"https://spark.apache.org/docs/0.8.1/quick-start.html 이 부분은 $ mvn package $ mvn exec:java -Dexec.mainClass="SimpleApp" ... Lines with a: 46, Lines with b: 23 가 어떻게 병렬 클러스

    13

    7답변

    두 개의 가상 시스템으로 클러스터에 Spark Standalone 모드를 설치하려고합니다. spark-0.9.1-bin-hadoop1의 버전에서는 각 VM에서 spark-shell을 성공적으로 실행합니다. the offical document을 따라 하나의 VM (ip : xx.xx.xx.223)을 마스터와 워커로 만들고 다른 하나 (IP : xx.xx.x

    1

    1답변

    우리는 CDH5에 대해 Mesos 0.17에서 Spark 0.9.1을 실행합니다. 지금까지 우리는 작은 파일에 filecrush 프로젝트를 실행할 수 있도록 'mr1'버전의 CDH 시리즈를 계속 사용했습니다. 여러 가지 이유로 MR-2로 업그레이드 할 자유가 있습니다. Hadoop의 map/reduce 외부에서이를 수행 할 수있는 도구가 있습니까? 오늘날

    4

    1답변

    실시간 데이터를 처리하기 위해 Spark 스트리밍을 연구 중이며 spark 스트리밍 예제 wordCount를 작성했으며 예제를 실행할 수 있습니다. /bin/run- 예제 org.apache.spark.streaming.examples.JavaNetworkWordCount local [2] localhost 9999 다른 터미널에서 "nc -L -p 999

    2

    2답변

    저는 스파크/상어를 처음 사용하고 스파크 직원 3 명과 함께 클러스터를 가동 시켰습니다. 나는 같은 서버 3 대에 Shark를 설치하기 시작했으나 필요하지 않고 오직 Shark 서버 하나만 필요하다는 결론에 도달했습니다. 문서에서 이걸 말하는 것은 아무것도 없습니다. Spark/Hive가 심하게 들기 때문에 하나의 상어 서버 만 필요합니까, 아니면 Spar