2017-12-06 11 views
2

나는 열에 가장 자주 나오는 단어 목록을 얻으려고합니다.Postgres에서 두 개의 정지 단어 사전을 사용할 수 있습니까?

SELECT 
    word, 
    sum(nentry) AS nentry 
FROM ts_stat(
    $$ 
    SELECT to_tsvector('simple', body) 
    FROM document 
    $$ 
) 
GROUP BY word 

이 방법은 효과적이지만 문제는 문서에 프랑스어와 영어 단어가 포함되어 있다는 것입니다. 정지 단어로 영어 사전을 사용하면 가장 자주 나오는 단어는 pour이고, 프랑스어를 사용하면 the이됩니다. 그건 분명히 제외하고 싶은 두 단어입니다.

정지 단어에 두 가지 사전을 사용하는 구성을 만드는 방법이 있습니까?

+0

https://www.postgresql.org/docs/9.6/static/sql-createtsdictionary.html –

+0

예를 들었습니까? 문제는 하나의 정지 단어 파일 만 선택할 수 있다는 사실에 있습니다. 새로운 정지 단어 파일을 만들 수 있지만 배치 용 PITA입니다. 우리는 Heroku를 사용하는데 파일 시스템을 변경하는 것이 가능한지 전혀 알지 못합니다. –

답변

2

프랑스어 및 영어 단어 단어 파일의 합집합 인 단어 파일을 만들어 해당 단어 파일이 포함 된 simple 사전을 만들어야합니다.

그런 다음 asciiwordword에 대해이 사전을 사용하는 텍스트 검색 구성을 만들고이 구성을 사용하십시오.