2014-08-31 11 views
1

는 수 우리는 인덱스 일부 중간 파일 저장 WARC 추출하지 않고 직접 SOLR에 파일과 (예를. HTML 형식)를 WARC에서 하드 디스크에 첫번째 파일?WARC 파일을 Solr에 직접 색인 할 수 있습니까?

즉, 하드 디스크에 아무것도 저장하지 않고 이러한 파일의 색인을 생성 할 수 있습니까?

답변

0

해당 파일에 대해 어떤 스키마가 필요한지 확실하지 않으므로 클라이언트에서 수행해야합니다. 그런 다음 스트리밍 방식으로 컨텐츠를 메모리로 확장하고, 필요한 경우 클라이언트 측 Tika와 처리하고, 원하는 모든 문서 표현을 Solr에 전송할 수 있습니다.