spark-streaming

    0

    1답변

    나는 내결함성을 포함한 Spark Streaming with Kafka 어플리케이션을 구현하려고합니다. 응용 프로그램을 다시 시작하면 다시 시작하기 전에 이미 읽은 메시지를 읽고 계산이 잘못되었습니다. 이 문제를 해결하도록 도와주세요. 다음은 Java로 작성된 코드입니다. public static JavaStreamingContext createContex

    0

    1답변

    Gzip 압축을 사용하려면 제작자 측에서 변경해야하지만 메시지를 읽는 동안 압축 해제하는 방법을 모르겠습니다. 통해 밖으로 시작하십시오. 시작하는 방법에 대한 약간의 조명. 압축되지 않은 메시지에 대해 My End to End Streaming이 작동합니다. 고마워요.

    0

    1답변

    Kafka에서 json을 읽는 온라인 예제가 많이 있습니다 (쪽매에 씁니다).하지만 kafka의 CSV 문자열에 스키마를 적용하는 방법을 알 수는 없습니다. 스트리밍 된 데이터 : customer_1945,cusaccid_995,27999941 customer_1459,cusaccid_1102,27999942 스키마 : df = spark \

    0

    1답변

    나는 스파크 스트리밍에 처음이다. UpdateStateByKey 작업의 중요성을 이해하려고합니까? 그것의 용도는 무엇입니까? 임의의 주를 저장할 필요성은 무엇입니까? 어떻게 작동합니까?

    -1

    1답변

    을 실행하기 위해 아래 나에 대한 제안을해야 시나리오, 시나리오입니다. 스파크 프로그램은 하이브의 데이터에서 ETL 연산과 복잡한 결합을 수행해야합니다. Nifi에서 수집 한 데이터가 연속 스트리밍이므로 Spark 작업을 가져온 데이터에서 1 ~ 2 분마다 실행하고 싶습니다. 어떤 것이 가장 좋은 옵션입니까? 스케줄러를 사용하여 1 분마다 촉발 작업을 트리

    1

    1답변

    partitionBy으로 (이 형식 YYYY-MM-DD의 날짜의 문자열을 포함하는) 스트링 열 스파크 구조화 된 스트림 2.1을 사용 카프카 스트리밍 동안 고유성 마루 파티션 이름은 I 하나 interval27e/_spark_metadata interval27e/interval_read_date=2010-10-27 08%3A02%3A48 interval

    0

    1답변

    우리는 spark-streaming-kafka-0-8 수신기를 사용하고 있습니다. numPartitions를 늘려서 소비되는 이벤트의 양을 늘릴 수 없습니다. 증가하는 numPartitions가 성능에 영향을 미치지 않는 것 같습니다. KafkaUtils.createStream 메소드에는 topic_name에서 numPartitions까지의 맵핑이 있지만

    1

    1답변

    자바 스파크 커넥터를 통해 MongoDB에 연결하려고하는데 jar 파일을 제출할 때 "com.mongodb.spark.config.writeconfig"오류가 발생합니다. 스파크 껍질에 항아리를 달아 라. 여기에 오류 스크린 샷 : 이 문제를 해결할 수 있도록 도와 주시겠습니까? 나는 이것을 시도했지만 성공하지는 못했다. $/빈/sparkR --conf "

    0

    1답변

    Druid 데이터 소스에 Spark Streaming 작업의 결과를 쓰려고합니다. 스파크가 사제와 일을 성공적으로 완료했습니다. 드루이드는 색인 생성을 시작하지만 아무 것도 쓰지 않습니다. 다음과 같이 내 코드와 로그는 다음과 같습니다 import org.apache.spark._ import org.apache.spark._ import org.apa

    1

    1답변

    spark.streaming.blockInterval의 블록과 Spark Streaming의 RDD 파티션의 차이점은 무엇입니까? 스파크 스트리밍 2.2.0 문서를 인용 대부분 수신기의 는 수신 된 데이터는 스파크의 메모리 안에 저장하기 전에 데이터의 블록들로 함께 병합된다. 각 일} 처리의 블록 수는 맵과 같은 변환에서 수신 된 데이터를 처리하는 데 사용