apache-spark

    0

    1답변

    스파크 데이터 프레임의 특정 열을 무시하고 열차 회귀 모델을 실행하는 방법은 무엇입니까? 하나의 Spark DF에서 기능과 레이블이있는 제품이 2 개 있다고 가정 해 봅니다. 제품의 ID는 seprate 열에 있습니다. 각 제품에 대해 회귀 분석을 실행하고 싶습니다. 지금까지 relaviely 간단한 분석을 위해, 내가 사용하고 w = Window().pa

    0

    1답변

    결과 : +---+-----+----+ | ID|Categ|Amnt| +---+-----+----+ | 1| A| 10| | 1| A| 5| | 2| A| 56| | 2| B| 13| +---+-----+----+ 내가 열 Amnt의 GROUPBY ID와 Categ의 합을 취득하고 싶습니다. SQL에서 +---+-----+-----+ |

    1

    1답변

    RDD에서는 groupByKey 사용을 권장하지 않았으며 reduceByKey() 및 aggregateByKey()와 같은 대안을 사용하도록 권장했습니다. 이러한 다른 방법은 각 파티션에서 처음으로 줄여서 groupByKey()를 수행하므로 데이터가 셔플되고 있습니다. 지금, 내 질문은 여전히 ​​데이터 집합/데이터 프레임에 적용됩니까? 나는 촉매제 엔진이

    0

    1답변

    EMR에서 하이브 Metastore를 사용 중입니다. HiveSQL을 통해 수동으로 테이블을 쿼리 할 수 ​​있습니다. 하지만 스파크 작업에 동일한 테이블을 사용하는 경우, 그것은 입력 경로가 존재하지 않습니다 말한다 : S3 : org.apache.hadoop.mapred.InvalidInputException :에 의한 // 입력 경로를 내가 S3에 내

    0

    2답변

    하둡 스파크의 reduce와 reduceByKey의 차이점은 무엇입니까? reduceByKey가 변환이고 reduce가 동작 인 이유는 무엇입니까?

    0

    1답변

    나는 스파크 스트리밍 작업을 실행 중이며 스트리밍 입력은 3 시간마다 약 50MB입니다. 이 작업은 처음 몇 시간 동안 몇 개의 파일을 처리했습니다. 그러나 다음 오류로 갑자기 실패했습니다. 오류가 발생하면 입력을받지 못했습니다. 스파크 작업이 새 스레드를 만들 수 없습니다. 비즈니스 로직에서 RDD를 캐시했습니다.하지만 모든 새 입력 파일에 대해 새 스레

    0

    1답변

    쓰기를 통해 HDFS에서 생성 된 파일에는 고유 한 이름 지정 규칙이 있습니다. 사용자 정의 이름으로 변경하려면 스크립트를 통한 옵션이 있습니다. hadoop fs -mv oldname newname 생성 된 파일에 사용자 정의 이름을 제공하기 위해 Spark/Hadoop에서 사용할 수있는 다른 옵션이 있습니까?

    1

    1답변

    3 개의 마스터와 2 개의 공용 에이전트로 테스트 DC/OS 클러스터를 구축하십시오. 모든 것이 좋아 보인다. 심지어 "acceptedResourceRoles":["slave_public"] 구성으로 마라톤을 통해 배포 된 응용 프로그램. 그러나 카탈로그 섹션을 통해 Spark 서비스를 배포하려는 경우 오랜 시간 동안 멈추어 서 DCOS has been w

    0

    1답변

    두 개의 키를 기반으로 합치려는 두 개의 데이터 프레임이 있습니다. 일치 항목이없는 경우 키 1만을 기준으로 일치 항목을 가져 오려고합니다 (키 1의 여러 레코드가있을 수 있지만 하나를 선택할 수 있지만 레코드 하나만 가져와야합니다) : val df1 = spark.sparkContext.parallelize(List(("k0","k00","v0"),

    1

    2답변

    내가 전화 휴대폰 다음 스키마 및 내용처럼 열을 폭발하려고했다와 Jsons의 목록에 열을 폭발 : (customer_external_id,StringType phones,StringType) customer_id phones x8x46x5 [{"phone" : "(xx) 35xx4x80"},{"phone" : "(xx) xxxx46605"}] x