PostgreSQL의 to_tsvector
함수는 매우 유용하지만 내 데이터 집합과 관련하여 필자가 원하는 것보다 조금 더 많은 기능을 수행합니다. 예를 들어PostgreSQL의 to_tsvector 함수는 어휘가 아닌 토큰/단어를 반환 할 수 있습니까?
:
select *
from to_tsvector('english', 'This is my favourite game. I enjoy everything about it.');
는 생산 : 'enjoy':7 'everyth':8 'favourit':4 'game':5
내가 그 괜찮, 필터링하기 스톱 단어에 대해 법석을 떨게 아닙니다. 그러나 어떤 단어들은 마치 everything
과 favourite
처럼 완전히 망가졌습니다.
이 동작을 수정하는 방법이 있습니까? 아니면이 작업을 수행하는 다른 기능이 있습니까?
추신 : 예,이 작업을 수행하는 자체 쿼리를 작성할 수 있지만 더 빠른 방법을 원합니다.
합니다. 정지 단어를 제거하지만 형태소 분석을하지 않는 사전이 있습니까? – Petar
@ Petar 스톱 워드를 제거하는 또 다른 변형을 추가했습니다 –
완벽합니다. 고맙습니다! – Petar