대량의 텍스트 본문에서 정보 필터링

텍스트 본문의 정보를 찾을 수있는 모범 사례, 알고리즘 또는 소프트웨어 (허가 된 라이선스가 필요한 오픈 소스 ...)가 있습니까? 대량의 텍스트 본문에서 정보 필터링

모두가 도시의

모두가 모든 전화 번호의 언급 찾을

모든 URL을 찾을 상태의

를 언급 찾을 언급 찾을 텍스트에서 모든 이메일 주소를 찾을 수

RapidMiner가 이와 같은 텍스트 마이닝을 할 수 있어야한다고 들었지만 AGPL은 본인의 목적에 맞는 라이센스가 아닙니다.

이러한 종류의 분석을 수행하는 데 '표준'이 있습니까?

2011-06-10 CharlesS

약 Named Entity Recognition을 읽으십시오. Apache OpenNLP 또는 Apache UIMA을 시도 할 수 있습니다. 둘 다 Apache 라이센스가 있습니다.

2011-06-10 20:55:15

"명명 된 엔티티 인식"이라는 용어는 내가 누락 된 키워드입니다! 데이터 마이닝에 대한 2 권의 책을 읽었으며이 문제가 발생하지 않았습니다. 감사! – CharlesS

이러한 엔티티 유형의 경우 gexp과 같은 규칙 기반 NER 도구를 사용할 수 있습니다.

2011-06-12 15:41:33 yura

답변