나는 1M ~ 10M 문자열 목록을 가지고 있으며 그 중 어느 것이 하나의 문서 (예 : 1 페이지의 텍스트)에서 발견되는지보고 싶습니다.하나의 문서에서 많은 문자열 검색
Lucene (Solr/Elasticsearch)을 사용하여 문자열이 포함 된 모든 문서를 찾을 수 있음을 알고 있습니다. 그러나 이것은 반대입니다.
Aho-Corasic과 같은 문자열 검색 알고리즘 중 하나를 기반으로하는 임시 솔루션을 프로그래밍 할 수 있지만 휠을 다시 작성해야한다고 가정합니다. 이것에 대한 라이브러리/프레임 워크가 있습니까?
는