단어 검색 엔진의 작고 가벼운 가방에 대한 권장 사항은 무엇입니까?간단한 단어 검색을위한 검색 엔진에 대한 권장 사항은 무엇입니까?
기본적으로 각각 임의의 단어로 구성된 작은 가방 인 '문서'세트가 있습니다. 새 문서가 주어지면 필자는 '유사한'문서 목록을 얻을 필요가 있습니다. 문서는 작을 가능성이 높습니다.
- 줄무늬가 크지 만 고도로 요구되지는 않습니다.
- 단어 그물을 사용하는 단어 확장은 필요하지 않습니다.
- opensource 또는 프리웨어가 선호됩니다. 이는 프로토 타입이기 때문에 전체 프로젝트가 아닙니다.
- 유닉스/리눅스 플랫폼이 선호됩니다.
나는 그것을 하위 구성 요소로 사용하고 ID로 문서를 공급하기 만하면 현재 현재 가지고있는 문서와 유사한 문서를 검색 할 것입니다.
데이터베이스없이 (MySQL 또는 PostgreSQL) Sphinx를 사용할 수 있습니까? 즉, 파일로 직접 피드 할 수 있습니까? –
네, xmlpipe2 소스를 사용하십시오. http://www.sphinxsearch.com/docs/current.html#xmlpipe2 –
그래, 나는 그것을 보았다. 하지만 모든 파일은 XML 형식으로되어 있습니까? 저의 요점은 Sphinx가 테이블이나 XML에서 데이터를 색인하기위한 솔루션이라는 것입니다. 데이터베이스 외부의 비 구조화 된 데이터를위한 솔루션이 아닙니다. –