pyspark-sql

2열

1답변

spark-ec2을 사용하여 스파크 클러스터를 만들었습니다. 는 지금은 포스트 그레스에서 일부 데이터를 가져 오는 작업, 그것을 풍부하게 제출 할, 그리고 다시 새로운 테이블의 덤프, 그래서 수행하려고 그 다음 명령을 : PYSPARK_PYTHON=/usr/bin/python2.7 ./spark/bin/spark-submit --jars=/root/jars

0열

2답변

pySpark : 그룹당 하나의 단일 노드로 groupBy()를 사용할 수 있습니까?

저는 그룹 별 매트릭스를 계산하기 위해 pySpark를 사용하고 있습니다. Spark이 하나의 단일 노드에 주어진 그룹의 행을 저장하면 계산이 더 빨라지므로 Spark은 각 행렬을 로컬로 계산할 수 있습니다. 나는 노드 간 협력이 훨씬 더 오래 걸릴 수 있다고 우려한다. map()를 수행하고 groupBy() 일반적으로 이런 종류의 일을 달성? 가능하면 옵

1열

1답변

데이터 프레임에 여러 파일로드

하나의 데이터 프레임으로 여러 파일을로드 할 수 있습니까? 내가로드 하나 개의 파일이있는 경우 일반적으로, 나는 예를 들어 호출합니다 : file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" dc = sqlContext.read.format('com.databricks.spark.csv').options

0열

1답변

PySpark DataFrames : 일부 값이 배열 열에있는 필터

필드 중 하나에 중첩 된 배열 값이있는 PySpark의 DataFrame이 있습니다. 배열에 특정 문자열이 들어있는 DataFrame을 필터링하고 싶습니다. 내가 어떻게 할 수 있는지 모르겠다. 스키마는 다음과 같습니다 root |-- name: string (nullable = true) |-- lastName: array (nullable = true)

0열

1답변

SQLContext :: IndexError가있는 Apache SPARK

에 제공된 기본 예제를 실행하려고합니다. Apache SPARK 설명서의 부분을 리플렉션을 사용하여 유추합니다. 내가 클라우 데라 빠른 VM (CDH5) 내가 실행하기 위해 노력하고있어 예에서이 작업을하고 있어요 은 다음과 같습니다 : # sc is an existing SparkContext. from pyspark.sql import SQLContex

5열

1답변

pyspark에서 spark.sql.parquet.output.committer.class를 설정하는 방법

spark.sql.parquet.output.committer.class을 설정하려고하는데 설정을 적용하는 것으로 보이지 않습니다. 많은 스레드가 폴더를 사용하지 않으므로 org.apache.spark.sql. parquet.DirectParquetOutputCommitter과 동일한 출력 폴더에 쓰려고합니다. 나는 그것을 작동하지 않는 방법을 알고, 이는

3열

1답변

Pyspark 사용자 정의 열 계산

Pyspark에서 분류 자의 입력 데이터를 준비 중입니다. SparkSQL에서 aggregate 함수를 사용하여 평균 및 분산과 같은 기능을 추출했습니다. 이들은 활동, 이름 및 창별로 그룹화됩니다. Unix 시간 소인을 10000으로 나눈 값으로 창을 계산하여 10 초의 시간 창으로 구분합니다. sample = sqlContext.sql("SELECT a

2열

3답변

pyspark.sql data.frame 이해 함수

나는 mooc을 복용하고 있습니다. 열을 소문자로 변환해야하는 할당이 하나 있습니다. sentence=lower(column) 트릭을 않습니다. 하지만 처음에는 구문이 sentence=column.lower()이어야한다고 생각했습니다. 나는 문서를 보았고 나의 문법으로 문제를 파악할 수 없었다. 온라인 문서 및 함수 정의를 검색하여 잘못된 구문이 있다는 것