apache-beam

    0

    1답변

    세션의 PCollection을 가져오고 채널/연결 당 평균 세션 지속 시간을 얻으려고합니다. 나는 창문마다 초기 트리거가 발사되는 곳에서 뭔가를하고 있습니다. 60 분짜리 창문이 매 1 분마다 움직이면 초기 트리거가 60 번 발사됩니다. 출력물의 타임 스탬프를 보면 앞으로 60 분 동안 매분마다 창이 열립니다. 방아쇠를 가장 최근의 창에 대해 한 번 발사하

    -1

    1답변

    저는 각각 200GB의 크기를 포함하는 약 10 개의 파일을받는 한 프로젝트에서 작업하고 있습니다. 내 프로젝트 요구 사항은 각 파일에서 데이터를 추출하고 다른 파일과 결합하여 데이터를 추출하는 것입니다. E.G 나는 계정 ID가있는 파일 1.txt를 가지고 있으며 계정 ID와 계정 이름이있는 파일 2.txt를 가지고 있습니다. 첫 번째 파일의 계정 ID를

    1

    1답변

    임의의 유형 X와 Y에 대해 PTransform<PCollection<X>, PCollection<Y>>이 주어졌습니다. 정확하게 변환되는 것은 무엇이고이 예제에서는 PValue가 정확히 무엇입니까? PValue가 그래프의 마지막 꼭짓점을 정의합니까?

    0

    1답변

    apex/spark runner를 사용하여 Apache 빔의 테이블에 데이터 쓰기. 그러나 apex runner를 사용하여 프로그램을 실행하는 동안 예외가 발생합니다. List<TableFieldSchema> fields = new ArrayList<>(); fields.add(new TableFieldSchema().setName("Id").

    0

    1답변

    아파치 빔에 KafkaIO를 사용하여 여러 카프카 브로커에서 읽으려고합니다. 오프셋 관리의 기본 옵션은 kafka 파티션 자체입니다 (더 이상 kafka> 0.9에서 동물원을 사용하지 않음). 이 설정으로 작업/파이프 라인을 다시 시작할 때 중복 된 레코드 누락과 관련된 문제가 있습니다. 내가 읽은 바로는이를 처리하는 가장 좋은 방법은 외부 데이터 저장소에

    0

    1답변

    Eclipse IDE 및 관련 플러그인을 사용하는 경우 IDE에서 로컬 및 데이터 흐름 모두에서 작업을 쉽게 실행할 수 있습니다. 작업을 "제품화"하려고 할 때 (그리고 템플릿을 사용할 수없는 알려진 Dataflow/Bigquery 제한 사항으로 인해) "클라우드 빌드"환경의 명령 줄에서 "mvn package"를 사용하려고합니다. 하지만 "org.apac

    0

    1답변

    Google 클라우드 데이터 흐름 작업이 있으며 특정 시간 간격으로 트리거됩니다. 데이터 흐름 작업이 특정 메일 ID로 작업 상태로 완료되면 메일을 트리거해야합니다. 당신이 할 수있는 감사합니다, Damodar

    1

    2답변

    제 쿼리가 수백만 행을 반환하는 경우 JdbcIO가 병렬로 쿼리를 실행하는 방법을 알고 싶습니다. https://issues.apache.org/jira/browse/BEAM-2803과 관련된 풀 요청을 언급했습니다. 나는 그것을 완전히 이해할 수 없었다. ReadAllexpand 메서드는 ParDo을 사용합니다. 따라서 병렬로 데이터를 읽으려면 데이터베이

    0

    1답변

    기존 파이프 라인을 데이터 흐름 2.x로 마이그레이션 중입니다. 파이프 라인의 마지막 단계에서 데이터가 Google 클라우드 서비스에 기록됩니다. 데이터를 .gz로 압축해야합니다. 이전에는 (데이터 흐름 1.x 구현에서) 우리는 우리를 위해이 작업을 위해 자체 Sink를 작성했습니다. 데이터 흐름 2.x에는이 작업을 수행 할 수있는 기본 방법이 있습니다.

    0

    1답변

    Cloud Pub/Sub에서 데이터를 읽고 Cloud Dataflow로 BigQuery에 쓰기를 원합니다. 각 데이터에는 데이터 자체가 저장 될 테이블 ID가 들어 있습니다. 테이블 ID 형식이 잘못 : 는 BigQuery를 쓰기에 실패하는 것이 여러 요인이 있습니다. 데이터 집합이 존재하지 않습니다. 데이터 집합에서 파이프 라인에 액세스 할 수 없습니다.