나는 lemmatizate를 찾고 프랑스 언어로 된 lucene을 사용하여 프랑스어로 작성된 문서에서 빈 단어를 제거합니다. 인터넷에서 보았지만 좋은 tutoriel을 찾지 못했습니다.lucene을 lemmatization 및 빈 프랑스어 단어 제거에 사용하는 방법
1
A
답변
0
그것은 쉽게, 모두 당신이 필요로하는 것은 이런 FrenchAnalyzer입니다 이 분석기에 통합되어 중요한 단어 (tf idf)를 찾을 때 알 수 있습니다.
0
"빈 단어"에 대한 용어는 stop words입니다.
Lucene은 FrenchAnalyzer 클래스를 제공하며, 프랑스어는 기본 중지 단어 목록과 함께 제공됩니다.
해당 클래스를 분석기로 사용하기 만하면됩니다.
IndexWriterConfig conf= new IndexWriterConfig (Version.LUCENE_45,new FrenchAnalyzer(Version.LUCENE_45,FrenchAnalyzer.getDefaultStopSet()));
빈 단어에 대한
우리가 사용 : FrenchAnalyzer.getDefaultStopSet() 나는 이전 코드에서했던, 그리고 원형 화를 위해 이미처럼
많이 고맙지 만 단어를 표기하지 않습니다. – Katty