2010-06-01 3 views
0

구조화되지 않은 문서 풀에서 특정 항목을 추출하려고합니다. 이 문서는 사용자가 다양한 방법으로 서식있는 텍스트의 1-5 페이지가 될 수 있지만, 대부분의 경우에 포함됩니다 적어도 : (물리적)비정형 텍스트 파일에서 인구 통계 및 연락처 정보 추출

  • 이름
  • 주소
  • 이메일 주소
  • 전화 수
  • 웹 사이트 URL 내가 t를로드 할 수 있도록 문서에서 이러한 요소를 추출하려고 시도 할 수있는 의미 파서를 찾고 있어요

관련 정보를 관계형 데이터베이스에 저장하고 이러한 레코드를 연락처로 사용하십시오.

내가 찾은 다른 서비스는 다른 목적으로는 유용하지만이 특정 요구를 해결하지 못합니다.

어떤 생각, 제안 또는 리드?

답변

0

질문에 대한 리드를 찾았습니까?

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192 & : 나는 몇 가지 연구 논문을 발견 대표 = rep1 & 유형 = PDF

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

그러나이 아이디어의 구현에 대한 코드의 어떤 구체적인 예.

너무 이것 좀 봐 : stackoverflow.com/questions/953150/general-address-parser-for-freeform-text 나는 HTTP,이 시스템은 저를 게시 할 수 허용하지 않습니다를 제외

(죄송합니다 둘 이상의 URL/링크)