수십 개의 단어 목록이 주어지면 수백 개의 텍스트가있는 자료에서 가장 잘 맞는 섹션을 어떻게 찾을 수 있습니까?

내가 250 개의 단어 목록을 가지고 있다고 가정 해 봅시다.이 단어의 전체 목록은 고유 한 항목을 포함 할 수도 있고, 모든 문법 형식의 단어 또는 특정 문법 형식의 모든 종류의 단어 (예 : 과거 시제 모두)로 구성 될 수 있습니다. 나는 또한 편리하게 150 개의 단어 (아마 나는 미래에이 섹션들을 동적으로 결정하고 싶지만, 지금은 남겨 둘 것이다)의 데이터베이스로 편리하게 분리 된 텍스트의 코퍼스를 가지고있다.수십 개의 단어 목록이 주어지면 수백 개의 텍스트가있는 자료에서 가장 잘 맞는 섹션을 어떻게 찾을 수 있습니까?

내 질문은 : 내 250 단어의 대부분을 포함하고있는 해당 섹션을 코퍼스 밖으로 가져 오는 유용한 방법은 무엇입니까?

나는 Lucene과 같은 몇 개의 전문 검색 엔진을 살펴 봤지만 긴 쿼리 목록을 처리 할 수 있는지 확신하지 못했습니다. 블룸 필터도 재미있을 것 같습니다. Perl에서 가장 편하게 느껴지 긴하지만 Ruby 나 Python에 멋진 것이 있으면 배우게되어 기쁩니다. 이 시점에서 성능은 문제가되지 않습니다.

이러한 프로그램의 사용 사례는 학습자 지식의 다양한 범위를 반영하는 다양한 단어 목록을 갖고 원본 소스의 맞춤 텍스트 또는 예제를 빠르게 찾을 수있는 언어 교육에 있습니다 . 또한, 나는이 일을하는 법을 알고 싶어합니다.

출처

2013-04-01 holconius

내가 찾고있는 것은 문서 비교입니다. 나는 a way to rank texts by similarity to a given document, in PostgreSQL을 발견했다.

출처

2013-04-02 08:40:40 holconius

수십 개의 단어 목록이 주어지면 수백 개의 텍스트가있는 자료에서 가장 잘 맞는 섹션을 어떻게 찾을 수 있습니까?

답변

관련 문제