다른 언어로 된 RDF 리터럴을 가질 수있는 필드를 Lucene에서 인덱싱하려고합니다. 내가 지금까지 본 접근 방법의 대부분은 다음과 같습니다lucene에서 다국어 단어 인덱싱
가 하나의 각 문서가 사용하는 각 언어 당 필드가 인덱스, 또는
사용 M 인덱스, M은 수있는 사용 코퍼스 언어의
Lucene 2.9+에는 용어에 속성을 첨부 할 수있는 Payload라는 기능이 있습니다. 누구나이 메커니즘을 사용하여 언어 (또는 데이터 유형과 같은 다른 속성) 정보를 저장합니까? 성능이 두 가지 다른 접근 방식과 비교하면 어떻습니까? 소스 코드에서 포인터가 어떻게 수행되었는지 보여주는 것은 도움이됩니다. 감사.
사례 2를 원합니다. 사용자에게 리터럴 언어를 표시 할 수 있어야합니다. prefLabel이라는 필드가 있다면 lucene은 다른 언어, 즉 "email"^ en "email"^ fr과 유사한 레이블의 색인을 처리 할 수 있습니까? 거꾸로 된 색인은 항목을 구별하기 위해 페이로드를 사용합니까? – fellahst
@fellahst : 페이로드는 "당신이 용어에 붙이고 싶은 임의의 쓰레기"라고 생각할 수 있습니다. 검색자가이를 무시합니다. 당신은 결국 수동으로 그것을 밖으로 끌어낼 수 있습니다. – Xodarap
페이로드를 질의 할 수있는 PayloadTermQuery 클래스가 있음을 발견했습니다. 검색자가 페이로드를 무시한다고 말할 때 내가 옳다고 주장하는지 확신 할 수 없습니다. – fellahst