나는 줄기가있는 입력란에 정확히 일치하는 것을 원합니다. "직장에서 베이비 시터를"keywordTokenizer 및 형태소 분석 필터를 사용하는 입력란에서 정확한 검색을 수행하는 방법
<fieldType name="string_ci_stem" class="solr.TextField" sortMissingLast="true" omitNorms="true">
<analyzer type="index">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.SnowballPorterFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.SnowballPorterFilterFactory"/>
</analyzer>
색인하기 문서 대신 "직장에서 보아"의 "직장에서 베이비 시터"입니다 - : Eg.My 데이터는이 값을 가지고있다. 나는 그 solr가 keywordTokenizer가 사용될 때 문장의 마지막 단어를 줄이는 것을 보았다.
"직장에서 보아"- - 반환 결과 을 "일을 보아"- doesnot 반환 결과 :
이는, "직장에서 보아"것과 같은 인덱스 "직장에서 베이비 시터"하는 방법입니다.
결과를 얻는 데 도움이되는 다른 schema.xml 정의는 무엇입니까?
도움이 될 것입니다.
편집 : 질문이 업데이트되었습니다.
문제를 이해하기는 어렵지만 불용어와 관련이 있으며 형태소 분석과 관련이없는 것으로 보입니다. – nomoa
@nomoa - 그냥 질문을 편집, 내가 잘못 입력했습니다. 혼란을 드려 죄송합니다. 실제로는 불용어와 관련이 없습니다. 사용하지 않기 때문입니다. –
OK, IIRC KeywordTokenizer는 전체 입력과 함께 하나의 토큰을 방출하므로 "Babysitters at work"는 단일 토큰 "babysitters at work"로 인덱싱됩니다. 공백이나 다른 것들을 토큰 화하는 StandardAnalyzer를 사용해야합니다. https://cwiki.apache.org/confluence/display/solr/ 토큰 도구 – nomoa