solr을 사용한 다국어 요구 사항에 대한 최적의 인덱싱 전략

IBM WCS v7은 검색 기반 구현을 위해 Apache solr이 내장 된 전자 상거래 기반 요구 사항 중 하나입니다.solr을 사용한 다국어 요구 사항에 대한 최적의 인덱싱 전략

새로운 요구 사항에 따라 웹 사이트에 대한 언어 지원이 여러 언어로 제공되며 프랑스어 버전의 사이트에서는 영어, 프랑스어 등 (en_FR, fr_FR 등)을 지원할 수 있습니다. 인터페이스, 단일 solr 코어를 사용하는 최적의 인덱싱 전략은 무엇이되어야합니까?

1) 여러 언어에 대해 schema.xml의 여러 필드 사용, 2) 다른 언어에 다른 solr 코어 사용.

그러나 전자 상거래 웹 사이트에 대한 18 개 언어 지원이 가능하기 때문에 이러한 접근 방식은 현재 요구 사항에 가장 적합하지 않은 것으로 보입니다. 모든 언어에 대해 서로 다른 필드를 사용하는 것은 매우 복잡 할 것이며, 다른 solr 코드를 사용하는 것은 모든 solr 코어에서 구성 변경을 적용해야하므로 좋은 방법은 아닙니다.

다른 접근 방법이 있습니까, 아니면 localeId를 인덱싱 된 데이터에 연결하고 검색된 결과를 검색된 언어와 관련시켜 처리 할 수있는 방법이 있습니까?

이 주제에 대한 도움을 주시면 감사하겠습니다.

감사와 안부,

Jitendriya 대쉬

출처

2013-04-17 dash27

하나의 설명 : 색인에 저장된 데이터를 지역화하거나 다른 언어로 저장된 데이터를 지원할 의향이 있습니까? 다른 말로하면 각 문서의 데이터가 각 언어로 한 번, 18 번 색인 될 것이라고 생각하십니까? 또는 한 번만, 어떤 언어로든 들어가게됩니까? – femtoRgon

데이터가 다른 언어로 이미 있습니다. 해당 언어에 대해 색인을 생성해야합니다. 그러나 우리는 하나의 핵심 언어 접근 방식을 사용하는 것처럼 보이며 마스터 카탈로그가 지원하는 각 언어에 대해 서로 다른 솔라 코어를 만듭니다. 이 방법을 사용하면 구성 변경을 각 코어에 복제해야하지만 좋은 부분은 언어 별 설정 (스톱어, 암호 등은 다른 언어와 관련하여 개별적으로 처리 할 수 있음)을 생각할 필요가 없다는 것입니다. – dash27

그렇습니다. 그럴 경우 이미 올바른 생각을 가지고 있다고 생각합니다. 동일한 필드에 여러 언어를 저장하면 문제가 발생합니다 (토큰 화, 정지 단어 등). 여러분이 진술 한 두 가지 방법 중 하나가 효과가 있습니다.또 다른 가능성은 각 언어에 대해 별도의 문서를 만들고 적절한 분석기를 addDocument 호출에 전달하고 문서의 언어를 지정하는 필드를 추가하는 것입니다. 그래도 내게 맞는 길에있는 것 같아. – femtoRgon

이 게시물이 이미 단지 요약 원래 포스터 및 기타 = 응답되었다는 답변으로 :

권장 솔루션을 당 하나 개의 인덱스 코어를 만드는 것입니다 로케일/언어. 이는 카탈로그 또는 컨텐트 (예 : 제품 이름, 설명, 키워드)가 다를 경우 비즈니스가 각 로켈별로 별도로 관리하는 경우에 특히 중요합니다. 적용 가능한 경우 Solr이 해당 로케일에 특정한 형태소 분석 및 토큰 화를 수행하는 추가 이점을 제공합니다.

저는 각 로케일/언어에 대해 동일한 코어에서 여러 필드 또는 문서를 유지하는 것보다이 방법이 선호되는 솔루션의 일부였습니다. 내가 함께 작업 한 인덱스 코어의 대부분은 6입니다.

인덱스 코어를 추가하려면 지원 프로세스에 대한 업데이트가 필요함을 기억해야합니다 (제품 정보 관리 시스템 업데이트로 작업 공간 관리에서 카탈로그로 다시로드하여 캐시로 다시 인덱싱하도록). 무효화).

출처

2014-08-12 05:58:27 AnbuP

solr을 사용한 다국어 요구 사항에 대한 최적의 인덱싱 전략

답변

관련 문제