pyspark-sql

0열

1답변

두 데이터 프레임이 있다고 가정하면 df1 및 df2입니다. df1 및 df2은 모두 "id"열을 포함합니다. 나는 결과 안양, df1prime이 만 ID를 DF2에있는 모든 ID의 DF1 없음에서 발견 을 갖도록 DF1를, 필터링 할 조인을 사용하지 않습니다. 어떻게해야합니까? DF 대신 RDD로 돌아갈 수 있습니까? pyspark와 scala 응답 모두

-2열

1답변

줄리안 날짜에서 줄리안 날짜를 계산하는 파이썬 udf

우리는 줄리안 데이를 통과하면 날짜를 얻기 위해 사용자 정의 파이썬 udf를 작성해야하는데, 이는 아래 논리와 반대입니다. 제발 조언. 에 StackOverflow에 def date_to_julian_day(my_date): """Returns the Julian day number of a date.""" a = (14 - my_date

0열

1답변

PySpark : 다중 출력 기능이있는 경우

"연결 시간"기능을 사용하려고합니다. 즉, 두 개 이상의 출력을 얻고 싶습니다. 나는 Excel의 기능 된 IF CONCATENATE 같은 논리를 사용하여 시도 : df.withColumn("device_id", when(col("device")=="desktop",1)).otherwise(when(col("device")=="mobile",2)).othe

-1열

1답변

pyspark dataframe 하나의 데이터 프레임에 여러 개의 json 파일 데이터를 병합합니다.

해당 데이터 프레임에서 작업을 수행하기 전에 하나의 데이터 프레임에 여러 개의 json 파일 데이터를 병합하려고합니다. 나는이 두 파일은 File2.txt에 의해 하나의 {"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} file2.txt {"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 그래서

1열

1답변

1.6.0에서 스파크 파티션 프 루닝이 작동하지 않습니다.

hdfs에서 파티션 된 파케 파일을 생성하고 HIVE 외부 테이블을 생성했습니다. 파티션 열에서 필터를 사용하여 테이블을 쿼리하면 spark가 특정 파티션 대신 모든 파티션 파일을 검사합니다. 우리는 불꽃 1.6.0에 있습니다. dataframe : df = hivecontext.createDataFrame([ ("class1", "Economic

0열

1답변

는

으로는 머리글 또는 유일한 처음 몇 행을 읽을 수있는 옵션이 있나요 나는 또한 CSV from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', infersc

0열

1답변

여러 열을 캐스팅 astype

질문에 대답하기 쉬워야합니다 ... 제가 잘못 했습니까? 여러 열을 형 변환 할 수 있습니까? 구문 오류가 바로 쉼표 주위 진열 유지 >>> val results2 = results.select(results["HCAHPS Base Score"].cast(IntegerType).as(results["HCAHPS Base Score"]), results["H

0열

1답변

구문 오류 sparksql 데이터 프레임에 대한 스키마 정의

내 pyspark 콘솔에서 내 for 루프 다음 행에 잘못된 구문이 있음을 알립니다. 콘솔 스키마까지 for 루프를 실행하지 않습니다 = StructType (필드)는 구문 에러를 가지고 있지만, for 루프 나에게 좋아 보인다 줄은 ... from pyspark import SparkContext from pyspark.sql import SQLCo

1열

1답변

PySpark sqlContext 읽기 Postgres 9.6 NullPointerException

Postgres DB에서 PySpark로 테이블을 읽으려고합니다. 나는 다음과 같은 코드를 설정하고 SparkContext가 존재 확인했습니다 : import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /tmp/jars/postgresql-42.0.0.jar --jars /tmp/jars/

0열

1답변

RDD에서 스키마를 시행하면서 DataFrame으로 변환 중

저는 Apache Spark의 새로운 버전입니다. Spark RDD 및 DataFrames에 CSV 파일을로드하려고합니다. 저는 RDD를 사용하여 데이터를 조작하고 데이터 프레임을 SQL과 같은 방식으로 데이터 프레임에서 조작합니다. RDD를 Spark DataFrame으로 변환하는 중에 문제가 발생합니다. 문제는 다음과 같습니다. # to load dat