2011-03-14 2 views
7

Lucene의 표준 분석기를 토큰 화하려면 어떻게해야합니까 '.' 숯? 예를 들어, "B"를 쿼리 할 때 결과로 "A.B.C"의 B를 반환해야합니다. 표준 분석기가 처리하는 방식으로 숫자를 처리해야하므로 간단한 분석기로는 충분하지 않습니다. 표준 분석기로 '토큰 화'를 지정할 수 있다면 완벽 할 것입니다. 숯 너무. 이 작은 확장자로 내 토크 나이저를 작성해야한다면 어떻게해야할까요? 감사합니다, Nacha기간별 Lucene 표준 분석기

답변

1

나는 자신의 분석기를 만드는 것이 가장 쉽다고 생각합니다. StandardAnalyzer에서 입력으로 토큰을 가져오고 점으로 구분 된 토큰을 추가하여 점없는 토큰을 그대로 유지합니다.

The package summary이 작업 방법에 대한 조언을 제공합니다. This blog post과 매우 관련이 있지만 Lucene의 이전 버전을 사용하므로 아마도 조정할 필요가 있습니다. 또한 Lucene FAQ을 참조하십시오.

+0

감사합니다. 자체 필터를 작성한 경우 표준 분석기 결과 토큰 스트림을 필터링하여 '.'이 포함 된 토큰을 분리합니다. 어떻게 처리합니까? 지금까지 내가 본 것처럼 필터는 토큰을 건너 뛰는 데 사용되었으며 하나의 토큰을 2 개의 토큰으로 분해하는 데 사용되지 않았습니다. – Nacha