2016-06-02 2 views
0

개발자 가이드를 확인했지만 답변을 찾지 못했습니다. 지금까지 HDV에서 Vora로 CSV 및 ORC 파일을로드 할 수 있었지만 Hive에서로드 할 수 있습니까?Hive 데이터를 Vora에로드 할 수 있습니까?

하이브를 소스로 지정하지 않은 경우/apps/hive/warehouse/tablename/00000_0 (또는 부분 파일 이름)과 동일한 "경로"를 사용하려고했습니다. 그러나 하이브 테이블이/tablename/디렉토리에있는 여러 파일로 표시되는 경우 이상적인 옵션이 아닌 "경로"에 명시 적으로 나열해야합니다. 더 좋은 방법이 있습니까?

업데이트 : Vora가 데이터 지속성을 제공하지는 않지만 Hive웨어 하우스를 지속성 계층으로 사용하고 싶습니다. 궁극적으로 여전히 파일이지만 일부 추가 구성이 있습니다. SAP 에코 시스템에서 Hadoop을 사용하여 SAP Data Services with Hive 어댑터를 사용하여 외부에서 Hadoop으로 파일을로드하고 필요할 경우 Hadoop에서 파일로 데이터를 덤프하고 Vora를 통해 해당 데이터를 사용할 수있게 만들 수있었습니다.

+0

SAP Vora는 Spark 위에 구축되므로 Spark로 수행 할 수있는 모든 작업은 Vora로 수행 할 수 있습니다. 내가 아는 한, Vora는 실제로 어떤 데이터도 저장하지 않고, 메모리 테이블을 생성합니다. 따라서 Hadoop에 데이터를 저장하려는 경우 하이브 테이블에 보관하는 것이 좋지만 Hadoop에서 추출 도구로 Vora를 사용하려는 경우 완전히 다른 것입니다. 너는 무엇을 하려니? – Jared

+0

@ TheRandomSuit Vora 나 Spark 어느 쪽도 데이터 지속성을 제공하지 않는다는 것을 알고 있습니다. 이것이 Hive웨어 하우스를 지속성 계층으로 사용하려는 이유입니다. (궁극적으로는 여전히 파일이지만 일부 추가 구성으로). 그렇게하면 내가 활용할 수 있습니다. SAP Data Services with Hive 어댑터를 사용하여 외부에서 파일을 Hadoop으로로드 할 수 있습니다 (필요한 경우 Hadoop에서 파일로 데이터를 덤프 할 수 있음). 말이된다? – Roman

+0

그래, 그건 의미가있다. 이 추가 컨텍스트로 질문을 업데이트해야합니다. – Jared

답변

1

하이브 테이블을 Vora로로드/마이 그 레이션하는 자동 방법이 없습니다. HDFS의 (Hive-organized) 파일을 기반으로 Vora 테이블을 만드는 것이 길 일 것입니다.

paths 옵션을 사용하면 * 와일드 카드를 사용하여 HDFS의 특정 디렉토리에서 모든 파일을로드 할 수 있습니다. csv, parquet, orc에서 작동합니다. 예 : paths "/path_to_my_dir1/*,/path_to_my_dir2/*"

+0

은 hive.exec.stagingdir을 잘못 (기본적으로) 설정하고 준비 디렉토리를 Hive의 테이블 디렉토리에 넣은 것으로 보아 Vora의 와일드 카드 처리가 망가졌습니다 – Roman