2017-12-07 40 views
3

자습서를 거친 후에도 아키텍처에 대해 명확하지 않습니다. 분산 환경에서 스트림 세트를 확장하는 방법은 무엇입니까? 예를 들어, 입력 데이터 속도가 원점에서 증가한 다음 SDC가 성능 문제를 일으키지 않도록하는 방법을 생각해 봅시다. 얼마나 많은 데몬이 실행됩니까? 마스터 작업자 아키텍처 또는 피어 투 피어 아키텍처입니까?StreamSets 아키텍처 란 무엇입니까?

여러 머신 (예 : YARN의 NodeManager와 함께 하나의 sdc)에서 여러 개의 데몬이 실행되는 경우 총 데이터 수, 즉 총 레코드 수를 어떻게 중앙에서 볼 수 있습니까?

또한 Dataflow 성능 관리자의 아키텍처를 알려주십시오. 이 제품에는 어떤 데몬이 있습니까?

+0

데몬 (deamons)에 대한 우려 사항이나 그 의미에 대해 좀 더 명확히 할 수 있습니까? [deamon threads] (https://docs.oracle.com/javase/8/docs/api/java/lang/Thread.html#isDaemon--)에 대해 구체적으로 이야기하고 있습니까? 그렇다면 데몬 쓰레드와 관련하여 특별한 걱정거리가 있습니까? 자바에서는 정상적인 스레드와 거의 동일하게 동작합니다. 자원 소비 등이 궁금합니다. –

답변

2

StreamSets Data Collector (SDC)는 입력 데이터를 분할하여 비율을 조정합니다. 경우에 따라 Cluster Batch mode은 Hadoop/MapR 클러스터의 MapReduce 작업으로 SDC를 실행하여 Hadoop FS/MapR FS 데이터를 읽는 반면 Cluster Streaming mode은 Kafka 파티션을 활용하고 SDC를 Spark Streaming 응용 프로그램으로 실행하여 실행합니다. 카프카 파티션이 있기 때문에 많은 파이프 라인 인스턴스.

다른 경우, StreamSets는 멀티 스레딩으로 확장 할 수 있습니다 - 예를 들어, HTTP ServerJDBC Multitable Consumer 기원은 별도의 스레드에서 여러 파이프 라인 인스턴스를 실행합니다.

모든 경우에 Dataflow Performance Manager (DPM)은 총 레코드 수를 포함하여 데이터를 중앙 집중식으로 볼 수 있습니다.