IBM WCS v7은 검색 기반 구현을 위해 Apache solr이 내장 된 전자 상거래 기반 요구 사항 중 하나입니다.solr을 사용한 다국어 요구 사항에 대한 최적의 인덱싱 전략
새로운 요구 사항에 따라 웹 사이트에 대한 언어 지원이 여러 언어로 제공되며 프랑스어 버전의 사이트에서는 영어, 프랑스어 등 (en_FR, fr_FR 등)을 지원할 수 있습니다. 인터페이스, 단일 solr 코어를 사용하는 최적의 인덱싱 전략은 무엇이되어야합니까?
1) 여러 언어에 대해 schema.xml의 여러 필드 사용, 2) 다른 언어에 다른 solr 코어 사용.
그러나 전자 상거래 웹 사이트에 대한 18 개 언어 지원이 가능하기 때문에 이러한 접근 방식은 현재 요구 사항에 가장 적합하지 않은 것으로 보입니다. 모든 언어에 대해 서로 다른 필드를 사용하는 것은 매우 복잡 할 것이며, 다른 solr 코드를 사용하는 것은 모든 solr 코어에서 구성 변경을 적용해야하므로 좋은 방법은 아닙니다.
다른 접근 방법이 있습니까, 아니면 localeId를 인덱싱 된 데이터에 연결하고 검색된 결과를 검색된 언어와 관련시켜 처리 할 수있는 방법이 있습니까?
이 주제에 대한 도움을 주시면 감사하겠습니다.
감사와 안부,
Jitendriya 대쉬
하나의 설명 : 색인에 저장된 데이터를 지역화하거나 다른 언어로 저장된 데이터를 지원할 의향이 있습니까? 다른 말로하면 각 문서의 데이터가 각 언어로 한 번, 18 번 색인 될 것이라고 생각하십니까? 또는 한 번만, 어떤 언어로든 들어가게됩니까? – femtoRgon
데이터가 다른 언어로 이미 있습니다. 해당 언어에 대해 색인을 생성해야합니다. 그러나 우리는 하나의 핵심 언어 접근 방식을 사용하는 것처럼 보이며 마스터 카탈로그가 지원하는 각 언어에 대해 서로 다른 솔라 코어를 만듭니다. 이 방법을 사용하면 구성 변경을 각 코어에 복제해야하지만 좋은 부분은 언어 별 설정 (스톱어, 암호 등은 다른 언어와 관련하여 개별적으로 처리 할 수 있음)을 생각할 필요가 없다는 것입니다. – dash27
그렇습니다. 그럴 경우 이미 올바른 생각을 가지고 있다고 생각합니다. 동일한 필드에 여러 언어를 저장하면 문제가 발생합니다 (토큰 화, 정지 단어 등). 여러분이 진술 한 두 가지 방법 중 하나가 효과가 있습니다.또 다른 가능성은 각 언어에 대해 별도의 문서를 만들고 적절한 분석기를 addDocument 호출에 전달하고 문서의 언어를 지정하는 필드를 추가하는 것입니다. 그래도 내게 맞는 길에있는 것 같아. – femtoRgon