2017-02-20 4 views
0

하이브에 ORC로 저장된 많은 테이블이 있습니다. SolrCloud 컬렉션에서 데이터를 인덱싱하려고합니다.ORC 파일 형식에 대한 Apache Solr 지원

Solr에서 ORC 형식으로 저장된 데이터를 인덱싱 할 수 있습니까? 나는 봤지만 아무것도 나왔다.

답변

1

SolR은 특정 하이브 파일 형식의 데이터를 읽는 것으로 보입니다.

당신은 즉, 다른 방법 SOLR에 데이터를 를 작성하는 하이브을 사용하는 문제에 보일 수 있습니다 - 따라서 (하이브가 실제 입력 파일 포맷의 복잡성을 돌볼 수 있도록 ORC, 마루, 아브 여부, 뭐든지 - 심지어 HBase 데이터 파일).

LucidWorks GitHub repo에는 하이브 솔로이라는 프로젝트가 있습니다. 봐.

+0

감사합니다 샘, 내가보기에 다른 관점이 필요합니다. – sergionsk8

0

나는 삼손의 대답을 받아 들일 것입니다.

어쨌든이 솔루션에 대해 충분히 만족하지 않습니다. 사실 지금도 원본 테이블의 모든 필드를 수동으로 선언하는 외부 테이블을 만들어야합니다. 운영면에서 볼 때 원래 테이블에서 새 테이블 (저장된 광고 텍스트 파일)을 생성하고 새 텍스트 파일을 인덱싱 한 다음 마지막으로 삭제하는 것은 다릅니다 (물론 이것은 매우 큰 테이블의 경우 문제가 될 수 있습니다. 내 경우는 아님).

자체 설명 형식의 ORC이므로 Solr은 필드 이름과 데이터를 압축 파일에서 직접 읽는 것이 좋습니다.

+0

글쎄, ORC 프로젝트는 이제 "코어 자바"API를 제공합니다 _ (V1.1 - 2016 년 6 월) _ => cf. https://orc.apache.org/docs/core-java.html 및 JavaDoc (https://orc.apache.org/api/orc-core/index.html?org/apache/orc/Reader)에 있습니다. html => 약간의 DIY 개발을 시도 할 수 있습니다. –