2
td-idf 가중치와 같은 메타 정보를 문서 용어에 추가하려면 데이터베이스를 처리해야합니다.Lucene : IR 정보를 추가하여 정교한 데이터를 출력하십시오.
는 연속적으로 나는이 작업을 위해 아파치 루씬을 사용할 계획입니다
... 등등 TD-IDF 코사인 유사성과 같은 유사성 대책 문서 쌍을 생성해야합니다. 나는 실제로 검색에 관심이 없거나 쿼리를 실행하고 있지만 데이터를 인덱싱하고 위에서 언급 한 문서 쌍 및 유사성 점수를 사용하여 출력 파일을 생성하기 위해 데이터를 정교화합니다. 다음 단계는 이러한 결과를 Weka 분류기에 전달하는 것입니다.
나는 Lucene으로 쉽게 할 수 있습니까? 감사합니다.