pyspark-sql

2열

2답변

(PySpark를 사용하여) Spark 데이터 프레임에서 그룹 quantile을 계산하고 싶습니다. 근사 또는 정확한 결과가 좋을 것입니다. groupBy/agg이라는 컨텍스트 내에서 사용할 수있는 솔루션을 선호하므로 다른 PySpark 집계 함수와 섞을 수 있습니다. 어떤 이유로 든 이것이 가능하지 않다면, 다른 접근법도 괜찮을 것입니다. This que

2열

2답변

평균을 내림차순으로 지정 하시겠습니까?

spark를 사용하여 CSV 파일에서 내림차순을 받고 정수로 반올림하고 싶습니다. zhvi. 그러나 코드 끝에서 sort(desc("Zhvi"))을 시도해보십시오. 그것은 항상 저에게 오류를줍니다. 내 결과 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi

0열

2답변

ipython 노트북에서 Postgres 데이터베이스에 Pyspark 연결

나는 이것에 대한 이전 게시물을 읽었지만, 왜 ipgthon 노트북을 Postgres DB에 연결할 수 없는지 정확히 지적 할 수 없다. ipython 노트북에서 pyspark를 실행할 수 있으며 SparkContext가 'sc'로로드됩니다. 나는 (this 후 기준) DB에 연결하는 ipython 노트북에서 뭐하는 거지 여기 export SPARK_CLA

0열

1답변

PySpark 내가 PySpark을 사용하고

에 큰 스파크 데이터 프레임의 행의 각 부분 집합에지도 작업을하고, 제가하고 싶은 것은 다음과 같다 방법 :는 큰 스파크 데이터 프레임 DF는 모든 레코드를 포함 . 나는이 df에서 'id'열로 나눈 레코드의 각 하위 집합에 대해 병렬 계산을 수행하려고합니다. 다음과 같이 나는 현재의 생각할 수있는 방법은 : 나는 df_agg.rdd.map(my_func)

-1열

1답변

psyaprk의 데이터 프레임을 사용하여 withColumn을 얻는 방법?

내가 2017-03-01을 변경 2017-03-01 02:00:00처럼 GT는 싶어하지만 첫 번째 사진은 2021=2017+3+1이고, 두 번째 사진은 당신은 날짜에 타임 스탬프를 변환 할 to_date을 사용할 수 있습니다 null

1열

1답변

- ImportError를 : 물어라는 이름의 모듈

심지어 내가 아래의 코드에서 pyspark.sql.snappy 가져 오기 SnappyContext를 가져 오려고 할 때마다 pyspark 및 snappydata를 다시 설치 한 후 : 내가 얻을 from pyspark.sql.snappy import SnappyContext from pyspark.storagelevel import StorageLevel

1열

1답변

변환 스파크 dataframe

우리가 dataframe 조리개을 말해봐 . 이제 import pyspark.sql.functions as F get_max_3 = F.udf( lambda x: sorted(x)[-3:] ) agged = df.groupBy('species').agg(F.collect_list('sepal_width').alias('sepal_width')

2열

1답변

[] 형식의 목록을() 형식으로 변환하는 방법

나는 수 억 개의 레코드가있는 큰 데이터 프레임을 가지고 있습니다. 나는 단지 그것을 읽는 동안 df를 필터링 할 정도로 오직 df의 10 %만을 원한다. 필터 조건은 동적이며 한 실험에서 다른 실험으로 변경됩니다. filter = "filter_condition in" + tuple(df1.select("xxx").rdd.flatMap(lambda x:

0열

1답변

pyspark : 중첩 된 키를 기반으로 테이블 조인

아래 예제 스키마가있는 두 개의 테이블이 있습니다. 테이블 A의 키는 테이블 B의 목록에 중첩되어 있습니다. 테이블 A와 테이블 B를 조인하려면 테이블 A 키를 기반으로 테이블 C를 생성해야합니다. 테이블 A의 값은 테이블 C의 중첩 된 구조 여야합니다. 표 B의 keyAs 목록. pyspark를 사용하여 어떻게 할 수 있습니까? 감사! 표 A root

0열

1답변

hdfs에서 읽고 Oracle로 쓰기 12

안녕하세요. hdfs에서 읽기를 시도하고 pyspark를 사용하여 oracle에 쓰려고하는데, 에 오류가 있습니다. Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/lib/spark/python/pyspark/sql/readwriter.py"