하이브에 ORC로 저장된 많은 테이블이 있습니다. SolrCloud 컬렉션에서 데이터를 인덱싱하려고합니다.ORC 파일 형식에 대한 Apache Solr 지원
Solr에서 ORC 형식으로 저장된 데이터를 인덱싱 할 수 있습니까? 나는 봤지만 아무것도 나왔다.
하이브에 ORC로 저장된 많은 테이블이 있습니다. SolrCloud 컬렉션에서 데이터를 인덱싱하려고합니다.ORC 파일 형식에 대한 Apache Solr 지원
Solr에서 ORC 형식으로 저장된 데이터를 인덱싱 할 수 있습니까? 나는 봤지만 아무것도 나왔다.
SolR은 특정 하이브 파일 형식의 데이터를 읽는 것으로 보입니다.
당신은 즉, 다른 방법 SOLR에 데이터를 를 작성하는 하이브을 사용하는 문제에 보일 수 있습니다 - 따라서 (하이브가 실제 입력 파일 포맷의 복잡성을 돌볼 수 있도록 ORC, 마루, 아브 여부, 뭐든지 - 심지어 HBase 데이터 파일).
LucidWorks GitHub repo에는 하이브 솔로이라는 프로젝트가 있습니다. 봐.
나는 삼손의 대답을 받아 들일 것입니다.
어쨌든이 솔루션에 대해 충분히 만족하지 않습니다. 사실 지금도 원본 테이블의 모든 필드를 수동으로 선언하는 외부 테이블을 만들어야합니다. 운영면에서 볼 때 원래 테이블에서 새 테이블 (저장된 광고 텍스트 파일)을 생성하고 새 텍스트 파일을 인덱싱 한 다음 마지막으로 삭제하는 것은 다릅니다 (물론 이것은 매우 큰 테이블의 경우 문제가 될 수 있습니다. 내 경우는 아님).
자체 설명 형식의 ORC이므로 Solr은 필드 이름과 데이터를 압축 파일에서 직접 읽는 것이 좋습니다.
글쎄, ORC 프로젝트는 이제 "코어 자바"API를 제공합니다 _ (V1.1 - 2016 년 6 월) _ => cf. https://orc.apache.org/docs/core-java.html 및 JavaDoc (https://orc.apache.org/api/orc-core/index.html?org/apache/orc/Reader)에 있습니다. html => 약간의 DIY 개발을 시도 할 수 있습니다. –
감사합니다 샘, 내가보기에 다른 관점이 필요합니다. – sergionsk8