나는 탄력 서버에 텍스트 색인을 가지고 있습니다. 나는이 같은 N- 그램 토크 나이를 구현 한 :검색 패턴의 최소 문자 이상 ngram을 사용하여 텍스트 내에서 검색
"analysis": {
"analyzer": {
"ngram_analyzer": {
"type": "custom",
"tokenizer": "ngram_tokenizer"
}
},
"tokenizer": {
"ngram_tokenizer": {
"type": "ngram",
"min_gram": "3",
"max_gram": "7"
}
}
},
내가 검색어 검색 "지옥" 을 배치 할 때
"안녕하세요 아름다운 세상 해주세요"
I가 원하는 내 데이터가 말할 수 있습니다 나만 첫 단어 (안녕하세요)와 ell이라는 단어가 아니라는 것을 알기 때문에 내 검색 패턴을 "깨뜨려"내 데이터에서 찾을 수 있습니다. (4 명의 charecters가 있고 아래가 아님)
감사합니다.
안녕하세요는 "Hel, ell, llo, Hell, ello, Hello"로 토큰 화되며 "ell"로 표시되고 검색 할 때 여전히 하나의 결과 만 표시됩니다. 전체 문자열입니다. -> "안녕 아름다운 세상". 문장을 나열하고 하나는 "안녕하세요 아름다운 세상"이고 다른 하나는 "아름다운 세계 ell"이고, "엘"을 검색하면 토크 메이커에서 색인을 생성 한 방법이므로 둘 다 가져올 수 있습니다. – mirzak
나는 너와 동의하지만 지옥을 찾고 있었는데 나는 지옥이라는 단어를 얻고 싶다. (나는 그것을 찾지 못했기 때문에 글자 수가 적고 H가 없다.) –
왜 이해가 안되는가? 수색자가 Hel, ell, hell로 단어를 깨고 Heel을 검색하는 것뿐입니다. –