2017-05-18 4 views
0

저는 클라우드 스토리지에서 많은 파일을 읽는 데이터 처리 파이프 라인을 연구 중입니다. 파일은 헤더 행이있는 csv 파일 일 수 있으므로 삭제해야하므로 줄을 지우는 데 오류가 없습니다. 데이터 흐름 작업에서 Google 클라우드 저장소를 읽을 때 헤더 파일을 건너 뛰려면 어떻게해야합니까?

내가 사용 싶지만 가능하면

:

자동 압축 등을 처리하기 때문에 다른 것을 함께
TextIO.Read.from(filePattern) 

. 이상적으로는이 같은 표시되어야합니다

TextIO.Read.from(filePattern, numberOfHeaderRows) 

을하고는 정상에서 numberOfHeaderRows를 제외해야합니다. 자바에서 이와 같은 것을 달성하는 가장 쉬운 방법은 무엇입니까?

답변

-1

가장 쉬운 경로는 TextIO.Read.from(filePattern)이고 그 다음에 헤더 행을 걸러내는 ParDo이 사용됩니다.

+0

어떤 줄이 머리글 줄인지 알 수 없으므로 작동하지 않습니다. 헤더 형식은 때때로 달라지며 줄 수도 다릅니다. –

+0

텍스트 파일은 여러 컴퓨터에서 조각으로 읽을 수 있으므로 파일 시작 부분의 줄을 쉽게 식별 할 수 없습니다. 이상적으로는 파일 헤더가 실제 내용 행과 명확하게 구분 될 수 있으며 설명 된대로 필터링 될 수 있습니다. –