이 문제로 저를 도울 수 있기를 바랍니다. 내가하고자하는 것 : 올바른 텍스트가 주어지면, 나는 스텔 마지 (stopwords)가없는 모든 형태소 분석 된 토큰 ngram의 빈도를 계산하려고합니다. 즉, 스톱 워드가 이미 제거되었습니다. lucene의 shingleanalyzerwrapper + standardanalyzer + indexreader는 어떻게 사용할 수 있습니까?
이
상황이다 indexwriter.addDocument (문서, 분석) 분석기 다시이며, ShingleAnalyzerWrapper + StandardAnalyzer : 나는 IndexWriter가 ShingleAnalyzerWrapper + StandardAnalyzer를 사용하여 일부 텍스트를 색인하고 나는이 같은 (IndexWriter에 문서를 추가 할 때).하지만 문제는 다음과 같습니다. 용어 및 용어를 가져올 때 불용어는 밑줄로 대체 된 것 같습니다.
이것은 입력입니다.
String text = "연결하고 싶습니다.";
문자열 text2 = "슈퍼 바이 바이 하드"; 6
용어 : _ | 주파수 : 2
용어 : _ 하드 | 주파수 : 1
기간 : | :
기간 : 주파수
이
는 출력 _ I | 주파수 : 2용어 : _ 링크 | 주파수 : 1 명
기간 : 쉽게 | 주파수 : 1 명
기간 : 하드 | 주파수 : 1 명
기간 : 하드 쉽게 | 주파수 : 1 개
용어 : I | 주파수 : 2
용어 : 전 원하는 | 주파수 : 2
t 음 : 링크 | 주파수 : 1
기간 : 슈퍼 | 주파수 : 1 명
기간 : 슈퍼 _ | 주파수 : 1
기간 : 원함 | 주파수 : 2
기간 : 원함 _ | 주파수 : 2
하는 경우 아무것도 불분명, 제발 부탁 그래서 나는 어떤 솔루션에 대한 도움말
정확히 내가 원했던 것이고, 대단히 감사합니다. – ncode
링크가 페이지를 찾을 수 없습니다. 이것은 동일한 토론 인 것처럼 보입니다 : http://www.gossamer-threads.com/lists/lucene/java-user/123704?do=post_view_threaded#123704 – junkdog