0

이 문제로 저를 도울 수 있기를 바랍니다. 내가하고자하는 것 : 올바른 텍스트가 주어지면, 나는 스텔 마지 (stopwords)가없는 모든 형태소 분석 된 토큰 ngram의 빈도를 계산하려고합니다. 즉, 스톱 워드가 이미 제거되었습니다. lucene의 shingleanalyzerwrapper + standardanalyzer + indexreader는 어떻게 사용할 수 있습니까?

상황이다 indexwriter.addDocument (문서, 분석) 분석기 다시이며, ShingleAnalyzerWrapper + StandardAnalyzer : 나는 IndexWriter가 ShingleAnalyzerWrapper + StandardAnalyzer를 사용하여 일부 텍스트를 색인하고 나는이 같은 (IndexWriter에 문서를 추가 할 때).

하지만 문제는 다음과 같습니다. 용어 및 용어를 가져올 때 불용어는 밑줄로 대체 된 것 같습니다.

이것은 입력입니다.
String text = "연결하고 싶습니다.";
문자열 text2 = "슈퍼 바이 바이 하드"; 6
용어 : _ | 주파수 : 2
용어 : _ 하드 | 주파수 : 1
기간 : | :
기간 : 주파수

는 출력 _ I | 주파수 : 2
용어 : _ 링크 | 주파수 : 1 명
기간 : 쉽게 | 주파수 : 1 명
기간 : 하드 | 주파수 : 1 명
기간 : 하드 쉽게 | 주파수 : 1 개
용어 : I | 주파수 : 2
용어 : 전 원하는 | 주파수 : 2
t 음 : 링크 | 주파수 : 1
기간 : 슈퍼 | 주파수 : 1 명
기간 : 슈퍼 _ | 주파수 : 1
기간 : 원함 | 주파수 : 2
기간 : 원함 _ | 주파수 : 2

하는 경우 아무것도 불분명, 제발 부탁 그래서 나는 어떤 솔루션에 대한 도움말

답변

0

참조하십시오 http://www.lucidimagination.com/search/document/e5681676403a007b/can_i_omit_shinglefilter_s_filler_tokens에 대한

덕분에 자신을 더 명확하게하려고합니다.

이 경우에는 stopword가있는 곳의 "구멍"을 도입하고 싶지 않으므로 stopfilter에서 위치 증가분을 비활성화하려는 것처럼 보입니다. 결코 존재하지 않는 것처럼 가장하고 싶을 것입니다.

+0

정확히 내가 원했던 것이고, 대단히 감사합니다. – ncode

+0

링크가 페이지를 찾을 수 없습니다. 이것은 동일한 토론 인 것처럼 보입니다 : http://www.gossamer-threads.com/lists/lucene/java-user/123704?do=post_view_threaded#123704 – junkdog