2016-11-21 2 views
2

탄성 검색에 대한 사전 정의 된 중지 단어 목록은 무엇인지 알아 내려고했지만 문서화 된 읽기 API를 찾지 못했습니다.탄성 검색에서 기본 중지 단어 목록 가져 오기

그래서, 나는이 문서의 english stop word list을 발견 this predefined variables (_arabic_, _armenian_, _basque_, _brazilian_, _bulgarian_, _catalan_, _czech_, _danish_, _dutch_, _english_, _finnish_, _french_, _galician_, _german_, _greek_, _hindi_, _hungarian_, _indonesian_, _irish_, _italian_, _latvian_, _norwegian_, _persian_, _portuguese_, _romanian_, _russian_, _sorani_, _spanish_, _swedish_, _thai_, _turkish_)

의 단어 목록을 찾고 싶어요,하지만 난 내 서버가 실제로 사용하는 하나입니다 있는지 확인하고 또한 중지 단어를 확인하려면 다른 언어 목록.

답변

5

영어 분석기에서 사용되는 중지 단어는 Standard Analyzer에 정의 된 것과 동일합니다. 즉, 설명서에서 찾은 단어와 동일합니다.

다른 모든 언어의 중지 단어 파일은 analysis/common/src/resources/org/apache/lucene/analysis 폴더의 Lucene 저장소에서 찾을 수 있습니다.

+1

감사! 참고 : 폴더의 파일을 검토 한 결과 인기있는 언어 (예 : 영어, 독일어)가 자신의 언어 폴더가 아닌 'snowball'디렉토리에있는 것으로 보입니다. –

+0

네, 맞습니다! 기쁜 데 도움이되었습니다. – Val