비정형 텍스트 파일에서 인구 통계 및 연락처 정보 추출

구조화되지 않은 문서 풀에서 특정 항목을 추출하려고합니다. 이 문서는 사용자가 다양한 방법으로 서식있는 텍스트의 1-5 페이지가 될 수 있지만, 대부분의 경우에 포함됩니다 적어도 : (물리적)비정형 텍스트 파일에서 인구 통계 및 연락처 정보 추출

관련 정보를 관계형 데이터베이스에 저장하고 이러한 레코드를 연락처로 사용하십시오.

내가 찾은 다른 서비스는 다른 목적으로는 유용하지만이 특정 요구를 해결하지 못합니다.

어떤 생각, 제안 또는 리드?

2010-06-01 jn29098

질문에 대한 리드를 찾았습니까?

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 & : 나는 몇 가지 연구 논문을 발견 대표 = rep1 & 유형 = PDF

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

그러나이 아이디어의 구현에 대한 코드의 어떤 구체적인 예.

너무 이것 좀 봐 : stackoverflow.com/questions/953150/general-address-parser-for-freeform-text 나는 HTTP,이 시스템은 저를 게시 할 수 허용하지 않습니다를 제외

(죄송합니다 둘 이상의 URL/링크)

2010-07-26 20:52:53 user402730

답변