pyspark-sql

    0

    1답변

    두 데이터 프레임이 있다고 가정하면 df1 및 df2입니다. df1 및 df2은 모두 "id"열을 포함합니다. 나는 결과 안양, df1prime이 만 ID를 DF2에있는 모든 ID의 DF1 없음에서 발견 을 갖도록 DF1를, 필터링 할 조인을 사용하지 않습니다. 어떻게해야합니까? DF 대신 RDD로 돌아갈 수 있습니까? pyspark와 scala 응답 모두

    -2

    1답변

    우리는 줄리안 데이를 통과하면 날짜를 얻기 위해 사용자 정의 파이썬 udf를 작성해야하는데, 이는 아래 논리와 반대입니다. 제발 조언. 에 StackOverflow에 def date_to_julian_day(my_date): """Returns the Julian day number of a date.""" a = (14 - my_date

    0

    1답변

    "연결 시간"기능을 사용하려고합니다. 즉, 두 개 이상의 출력을 얻고 싶습니다. 나는 Excel의 기능 된 IF CONCATENATE 같은 논리를 사용하여 시도 : df.withColumn("device_id", when(col("device")=="desktop",1)).otherwise(when(col("device")=="mobile",2)).othe

    -1

    1답변

    해당 데이터 프레임에서 작업을 수행하기 전에 하나의 데이터 프레임에 여러 개의 json 파일 데이터를 병합하려고합니다. 나는이 두 파일은 File2.txt에 의해 하나의 {"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} file2.txt {"a":1 , "b":"abc", "c":"abc2", "d":"abc3"} 그래서

    1

    1답변

    hdfs에서 파티션 된 파케 파일을 생성하고 HIVE 외부 테이블을 생성했습니다. 파티션 열에서 필터를 사용하여 테이블을 쿼리하면 spark가 특정 파티션 대신 모든 파티션 파일을 검사합니다. 우리는 불꽃 1.6.0에 있습니다. dataframe : df = hivecontext.createDataFrame([ ("class1", "Economic

    0

    1답변

    으로는 머리글 또는 유일한 처음 몇 행을 읽을 수있는 옵션이 있나요 나는 또한 CSV from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', infersc

    0

    1답변

    질문에 대답하기 쉬워야합니다 ... 제가 잘못 했습니까? 여러 열을 형 변환 할 수 있습니까? 구문 오류가 바로 쉼표 주위 진열 유지 >>> val results2 = results.select(results["HCAHPS Base Score"].cast(IntegerType).as(results["HCAHPS Base Score"]), results["H

    0

    1답변

    내 pyspark 콘솔에서 내 for 루프 다음 ​​행에 잘못된 구문이 있음을 알립니다. 콘솔 스키마까지 for 루프를 실행하지 않습니다 = StructType (필드)는 구문 에러를 가지고 있지만, for 루프 나에게 좋아 보인다 줄은 ... from pyspark import SparkContext from pyspark.sql import SQLCo

    1

    1답변

    Postgres DB에서 PySpark로 테이블을 읽으려고합니다. 나는 다음과 같은 코드를 설정하고 SparkContext가 존재 확인했습니다 : import os os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-class-path /tmp/jars/postgresql-42.0.0.jar --jars /tmp/jars/

    0

    1답변

    저는 Apache Spark의 새로운 버전입니다. Spark RDD 및 DataFrames에 CSV 파일을로드하려고합니다. 저는 RDD를 사용하여 데이터를 조작하고 데이터 프레임을 SQL과 같은 방식으로 데이터 프레임에서 조작합니다. RDD를 Spark DataFrame으로 변환하는 중에 문제가 발생합니다. 문제는 다음과 같습니다. # to load dat