2009-09-21 2 views
4

단어 검색 엔진의 작고 가벼운 가방에 대한 권장 사항은 무엇입니까?간단한 단어 검색을위한 검색 엔진에 대한 권장 사항은 무엇입니까?

기본적으로 각각 임의의 단어로 구성된 작은 가방 인 '문서'세트가 있습니다. 새 문서가 주어지면 필자는 '유사한'문서 목록을 얻을 필요가 있습니다. 문서는 작을 가능성이 높습니다.

  • 줄무늬가 크지 만 고도로 요구되지는 않습니다.
  • 단어 그물을 사용하는 단어 확장은 필요하지 않습니다.
  • opensource 또는 프리웨어가 선호됩니다. 이는 프로토 타입이기 때문에 전체 프로젝트가 아닙니다.
  • 유닉스/리눅스 플랫폼이 선호됩니다.

나는 그것을 하위 구성 요소로 사용하고 ID로 문서를 공급하기 만하면 현재 현재 가지고있는 문서와 유사한 문서를 검색 할 것입니다.

답변

0

Solr 또는 Sphinx. 그들은 정확하게 가벼운 것은 아니지만, 프로젝트가 성공적으로 이루어지면 성장이 필요하고 검색 엔진을 전환하는 것이 힘들 수 있습니다.

+0

데이터베이스없이 (MySQL 또는 PostgreSQL) Sphinx를 사용할 수 있습니까? 즉, 파일로 직접 피드 할 수 있습니까? –

+0

네, xmlpipe2 소스를 사용하십시오. http://www.sphinxsearch.com/docs/current.html#xmlpipe2 –

+0

그래, 나는 그것을 보았다. 하지만 모든 파일은 XML 형식으로되어 있습니까? 저의 요점은 Sphinx가 테이블이나 XML에서 데이터를 색인하기위한 솔루션이라는 것입니다. 데이터베이스 외부의 비 구조화 된 데이터를위한 솔루션이 아닙니다. –

0

Lucene은 옵션이라고 생각합니다. 그것은 단어 검색 엔진의 맞춤 가방을 만들 수 있어야합니다.

1

Whoosh은 순수 Python (C가 아닌 외부 데이터베이스 없음) 인덱서/검색 엔진입니다. 자세한 내용은 documentation을 확인하십시오. 형태소 분석을 지원합니다.

나는 미디어 위키 인스턴스의 XML 덤프에서 그것을 시도했지만 꽤 잘 작동하는 것처럼 보였다! ... 난 후 무엇을 할 수있다 '전체 텍스트 검색'과 같은 을 보인다으로 검색 할 추가 필드를 가진 것이 편리 할 수 ​​있습니다

MongoDB를 http://www.mongodb.org/display/DOCS/Home에 대해