pyspark-sql

    2

    1답변

    spark-ec2을 사용하여 스파크 클러스터를 만들었습니다. 는 지금은 포스트 그레스에서 일부 데이터를 가져 오는 작업, 그것을 풍부하게 제출 할, 그리고 다시 새로운 테이블의 덤프, 그래서 수행하려고 그 다음 명령을 : PYSPARK_PYTHON=/usr/bin/python2.7 ./spark/bin/spark-submit --jars=/root/jars

    0

    2답변

    저는 그룹 별 매트릭스를 계산하기 위해 pySpark를 사용하고 있습니다. Spark이 하나의 단일 노드에 주어진 그룹의 행을 저장하면 계산이 더 빨라지므로 Spark은 각 행렬을 로컬로 계산할 수 있습니다. 나는 노드 간 협력이 훨씬 더 오래 걸릴 수 있다고 우려한다. map()를 수행하고 groupBy() 일반적으로 이런 종류의 일을 달성? 가능하면 옵

    1

    1답변

    하나의 데이터 프레임으로 여러 파일을로드 할 수 있습니까? 내가로드 하나 개의 파일이있는 경우 일반적으로, 나는 예를 들어 호출합니다 : file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" dc = sqlContext.read.format('com.databricks.spark.csv').options

    0

    1답변

    필드 중 하나에 중첩 된 배열 값이있는 PySpark의 DataFrame이 있습니다. 배열에 특정 문자열이 들어있는 DataFrame을 필터링하고 싶습니다. 내가 어떻게 할 수 있는지 모르겠다. 스키마는 다음과 같습니다 root |-- name: string (nullable = true) |-- lastName: array (nullable = true)

    0

    1답변

    에 제공된 기본 예제를 실행하려고합니다. Apache SPARK 설명서의 부분을 리플렉션을 사용하여 유추합니다. 내가 클라우 데라 빠른 VM (CDH5) 내가 실행하기 위해 노력하고있어 예에서이 작업을하고 있어요 은 다음과 같습니다 : # sc is an existing SparkContext. from pyspark.sql import SQLContex

    5

    1답변

    spark.sql.parquet.output.committer.class을 설정하려고하는데 설정을 적용하는 것으로 보이지 않습니다. 많은 스레드가 폴더를 사용하지 않으므로 org.apache.spark.sql. parquet.DirectParquetOutputCommitter과 동일한 출력 폴더에 쓰려고합니다. 나는 그것을 작동하지 않는 방법을 알고, 이는

    3

    1답변

    Pyspark에서 분류 자의 입력 데이터를 준비 중입니다. SparkSQL에서 aggregate 함수를 사용하여 평균 및 분산과 같은 기능을 추출했습니다. 이들은 활동, 이름 및 창별로 그룹화됩니다. Unix 시간 소인을 10000으로 나눈 값으로 창을 계산하여 10 초의 시간 창으로 구분합니다. sample = sqlContext.sql("SELECT a

    2

    3답변

    나는 mooc을 복용하고 있습니다. 열을 소문자로 변환해야하는 할당이 하나 있습니다. sentence=lower(column) 트릭을 않습니다. 하지만 처음에는 구문이 sentence=column.lower()이어야한다고 생각했습니다. 나는 문서를 보았고 나의 문법으로 문제를 파악할 수 없었다. 온라인 문서 및 함수 정의를 검색하여 잘못된 구문이 있다는 것