2017-11-26 14 views
-1

텍스트 블록에있는 특정 패턴에 따라 키워드로 미리 태그가 지정된 대량의 이력서를 가져 오는 작업을 진행 중입니다 (이력서 당 평균 약 3500 단어).복수 키워드 근사 일치를위한 텍스트 사전 처리

예를 들어, 텍스트 블록에 "codeigniter"또는 "codeignitor"또는 "code igniter"또는 "code ignitor"가 포함되어 있으면 원래 단어가 "codeigniter"(일종의 규칙으로 정의 됨) 그런 다음 해당 키워드 (codeigniter)를 포함하도록 행에 태그를 지정합니다.

$rules = array(
    "keywords" => array("codeigniter","php","mysql"), 
    "match_relevance" => 0.8 
); 

$text_analysis = $search_lib->search($rules,$text_block); 

하고 다음 텍스트 분석은 반환 :

print_r($text_analysis); 

array(
    "codeigniter" => 8, 
    "mysql" => 4 
) 

위의 심한 오버 단순화가 될 수있는 방법이 될 수

나는의 라인을 따라 뭔가를 생각하고 있어요 완료되었지만 상대적으로 비슷한 방식으로 이것이 달성 될 수있는 방법에 대한 방향을 찾고 있습니다.

이 솔루션은 모든 프로그래밍 언어에 특정한 것은 아닙니다. (PHP, 파이썬 등이 될 수 있습니다)

전 텍스트 검색이나 (Sphinx, Solr, Lucene 등)과 같은 다른 검색 엔진과 같은 다른 기술을 사용하여 비슷한 결과를 얻을 수 있지만이 경우에는 특히 텍스트가 필요합니다. 부터 사전 처리해야합니다. 우리는 기록에 태그를 지정하려고합니다.

+0

누구를 투표를 이 닫혀 있어야합니다, 누군가가 말해 줄 수있는 이유는 무엇입니까? 이것은 매우 유용한 유스 케이스 및 프로그래밍 질문입니다. stackoverflow의 범위를 넘어서는 아키텍처 논의가 있습니까? –

답변

0

이름 엔티티 인식 및 연결에 대한 이야기가 아니십니까? 허용되는 결과를 얻기 위해서는 많은 문제와 많은 기술 (오픈 소스 여부)에 대한 연구가 필요합니다.

I가 추천 : - 이름 엔티티 인식의 기초를 공부하고 을 연결 - 사용 사례에 대한 지식 기반을 정의 (또는 사용 가능한 하나) - 추출하여 연결 할 수있는 솔루션을 구현 텍스트의 실체, 당신은 잠재적 [1] 오픈 소스 솔루션에 관심이있을 수 있습니다 - 강력한을 가지고 검색 엔진으로 그것을 통합하는 것은 이력서

을 찾는 것이었다

[1] 사람들에 http://stanbol.apache.org