2011-02-01 5 views
3

문자열과 관련성이있는 키워드를 효율적으로 추출하려면 어떻게합니까? 내 키워드 목록은 미리 정의되어 있습니다. 예를 들어 Michelle Obama에 대한 기사에서도 Barack Obama에 대해 언급 한 결과 Michelle ObamaBarack Obama을 키워드 Michelle Obama (키워드 목록에 Michelle ObamaBarack Obama)이 높은 관련성을 갖는 키워드로 추출하려고합니다.효율적인 키워드 검색/추출. 미리 정의 된 키워드 집합

각 키워드의 발생 횟수에 대한 문자열을 확인하는 것이 매우 효율적으로 보이지 않습니다. 내 응용 프로그램은 PHP로 개발되었지만이 작업을 효율적으로 수행 할 수 있다면 모든 언어가 정상입니다.

OpenCalais를 사용해 보았지만 대부분의 키워드를 감지하지 못했습니다. Lucene을 사용하여 키워드를 추출 할 수 있습니까?

+0

누구나이 경험이 있습니까? 감사? –

답변

1

아파치 lucene 패키지가 적합합니다. 그러나 제목과 단락이있는 경우 중지 단어를 걸러 내고 제목의 단어에 대해 더 높은 순위를 부여한 다음 단락에서 단어 나 양식을 일치시킬 수 있습니다. 더 나은 프로그래밍을 위해 텍스트 요약 기사를 참조하십시오.