Lucene에서 두문자 (예 : 영국, 미국 등)의 점을 보존하고 싶다면 어떤 분석기를 사용해야하고 어떻게 사용해야합니까? 이 작업을하면서 Lucene에 정지 단어 세트를 입력하려고합니다.Lucene에서 색인을 생성하는 동안 머리 글자로 점을 유지하십시오.
2
A
답변
1
WhiteSpaceAnalyzer은 점들을 보존합니다. StopFilter은 중지 단어 목록을 제거합니다. 필요한 분석을 정확하게 정의한 다음 분석기와 토큰 필터를 결합하여이를 달성하거나 write your own analyzer을 얻어야합니다.
0
StandardTokenizer은 글자 사이에 나오는 점들을 보존합니다. StandardTokenizer를 사용하는 StandardAnalyzer를 사용할 수 있습니다. 또는 StandardTokenizer를 사용하여 자체 분석기를 만들 수도 있습니다.
수정 : StandardAnalyzer는 머리 글자에서 점을 제거하는 StandardFilter를 사용하므로 도움이되지 않습니다. StandardTokenizer와 추가 필터 (소문자 필터 등)에서 StandardFilter를 뺀 자체 분석기를 구성 할 수 있습니다.
ur 주석을 주셔서 감사합니다 ... 참고로, 저는 이미 내 코드에 StandardAnalyzer를 사용하고 있습니다. protected readonly StandardAnalyzer _analyzer = new StandardAnalyzer (stop_words); 하지만 머리 글자에서 점을 제거합니다 ... – Jimmy