2
나는 열에 가장 자주 나오는 단어 목록을 얻으려고합니다.Postgres에서 두 개의 정지 단어 사전을 사용할 수 있습니까?
SELECT
word,
sum(nentry) AS nentry
FROM ts_stat(
$$
SELECT to_tsvector('simple', body)
FROM document
$$
)
GROUP BY word
이 방법은 효과적이지만 문제는 문서에 프랑스어와 영어 단어가 포함되어 있다는 것입니다. 정지 단어로 영어 사전을 사용하면 가장 자주 나오는 단어는 pour
이고, 프랑스어를 사용하면 the
이됩니다. 그건 분명히 제외하고 싶은 두 단어입니다.
정지 단어에 두 가지 사전을 사용하는 구성을 만드는 방법이 있습니까?
https://www.postgresql.org/docs/9.6/static/sql-createtsdictionary.html –
예를 들었습니까? 문제는 하나의 정지 단어 파일 만 선택할 수 있다는 사실에 있습니다. 새로운 정지 단어 파일을 만들 수 있지만 배치 용 PITA입니다. 우리는 Heroku를 사용하는데 파일 시스템을 변경하는 것이 가능한지 전혀 알지 못합니다. –