2011-06-10 3 views
1

텍스트 본문의 정보를 찾을 수있는 모범 사례, 알고리즘 또는 소프트웨어 (허가 된 라이선스가 필요한 오픈 소스 ...)가 있습니까? 대량의 텍스트 본문에서 정보 필터링

  • 모두가 도시의
  • 모두가 모든 전화 번호의 언급 찾을
  • 모든 URL을 찾을 상태의
  • 를 언급 찾을 언급 찾을 텍스트에서 모든 이메일 주소를 찾을 수

    • : 내가 말하는 겁니다
    • 는 ... 모두가 더 추가 할 수있는 기능 ... 된 우편 번호 의 언급 찾을

    RapidMiner가 이와 같은 텍스트 마이닝을 할 수 있어야한다고 들었지만 AGPL은 본인의 목적에 맞는 라이센스가 아닙니다.

    이러한 종류의 분석을 수행하는 데 '표준'이 있습니까?

  • 답변

    1

    Named Entity Recognition을 읽으십시오. Apache OpenNLP 또는 Apache UIMA을 시도 할 수 있습니다. 둘 다 Apache 라이센스가 있습니다.

    +0

    "명명 된 엔티티 인식"이라는 용어는 내가 누락 된 키워드입니다! 데이터 마이닝에 대한 2 권의 책을 읽었으며이 문제가 발생하지 않았습니다. 감사! – CharlesS

    1

    이러한 엔티티 유형의 경우 gexp과 같은 규칙 기반 NER 도구를 사용할 수 있습니다.