2008-10-09 4 views
25

간단하지만 "충분히 좋은"명명 된 엔티티 인식 라이브러리 (및 사전)를 Java 용으로 찾고 있는데 전자 메일 및 문서를 처리하고 다음과 같은 일부 "기본 정보"를 추출하려고합니다. 이름 , 장소, 주소 및 날짜Java 용 엔티티 인식 라이브러리

나는 주변을 둘러 보았고, 대부분 무거운 쪽과 전체 NLP 프로젝트에있는 것처럼 보입니다.

어떤 권장 사항이 있습니까?

답변

1

최근에 나는 OpenCalais에 걸쳐서 만났는데, 이는 내가 찾고 있던 기능을 갖춘 것처럼 보입니다.

+2

오픈 소스가 아닙니다. – wolfgang

22

비슷한 문제가있는 my earlier answers 중 하나를보고 싶을 수도 있습니다.

이외에도 가장 가벼운 NER 시스템은 사용되는 도메인에 많이 의존합니다. 예를 들어 생물 의학적 NER 시스템에 관한 많은 도구와 논문을 찾을 수 있습니다. (당신이 NER을 수행하려는 경우 이미 내 주요 권고 사항을 포함) 내 이전 게시물뿐만 아니라, 여기에 몇 가지 더 많은 도구는 당신이 보길 원하는 것일 수도 :

  • Stanford CER-NER
  • Postech Biomedical NER System 당신이 관심이 있다면 이 특정 도메인에서
  • OpenCalais은 상업용 시스템 인 것 같습니다. UIMA wrappers for OpenCalais이 있지만 날짜가있는 것으로 보입니다. 또한 당신을 도울 UIMA에 대한 사전 기반 Context-Mapper 어노 테이터가 있습니다. UIMA는 학습 곡선에서 상당한 오버 헤드를 의미 함을 유의하십시오.
  • OpenNLP에는 NER 도구가 있습니다.
  • Balie도 NER를 사용합니다.
  • ABNER은 NER을 수행하지만, 다시 생물 의학 도메인에 중점을 둡니다.
  • 독일 예나 대학의 JULIE Lab Tools도 NER을 수행합니다. 그들은 독립형 버전과 UIMA 분석 엔진을 가지고 있습니다.

추가 의견 : 입력에 토큰 화가 없으면 빠져 나갈 수 없습니다. 자연어의 토큰 화는 약간 사소한 일이기 때문에 두 가지 모두를 수행하는 도구 상자를 사용하는 것이 좋습니다.

+0

GENIA 술래를/확인하실 수 있습니다 스탠포드 파서의 토크 나이에 내장! – nflacco

0

Alchemy API도 시도해 볼 수 있습니다. Open Calais와 비슷합니다.

NLP 문법에 대한