2017-09-29 3 views
0

나는 elasticsearch에서 단어가 반복되는 횟수를 알기 위해 '용어 집계'를 사용합니다. 이 메소드는 짧은 문자열 필드에 대해 올바르게 작동합니다.집계를 사용하여 집필에서 단어 반복 횟수를 얻는 방법은 무엇입니까?

내 간단한 용어 집합 :

{ 
    "query": { 
    "bool": { 
     "must": [ 
     { 
      "query_string": { 
      "analyze_wildcard": true, 
      "query": "*" 
      } 
     } 
     ], 
     "must_not": [] 
    } 
    }, 
    "size": 0, 
    "_source": { 
    "excludes": [] 
    }, 
    "aggs": { 
    "2": { 
     "terms": { 
     "field": "msgtxt.keyword" 
     } 
    } 
    } 
} 

하지만 '기사'는 일부 긴 문장을 반환과 같은 긴 텍스트에 제출 긴 문자열에

.

'용어 집계'또는 다른 방법을 사용하여 반복 횟수를 찾을 수 있습니까? (기사 본문은 아랍어/페르시아어로되어 있음)

답변

1
+0

용어 벡터 반환 결과입니다. 다중 항 벡터는 한 번에 약 1000 개 이상의 문서에 대해 항 벡터 함수를 수행 할 수 있습니까? – MOB

+0

나는 100 개가 넘는 문서로 테스트하지 않았다. 하지만 난 당신이 할 수 있다고 생각;) –

+0

다중 용어 벡터는 모든 문서가 아니라 각 문서에 대한 용어와 주파수를 반환합니다. – MOB