Standford Core NLP와 GATE는 NER, POS 태깅과 같은 다양한 NLP 작업을 제공합니다. Tokenizer, Snowball Stemmer와 같은 NLP 작업 중 일부는 UIMA 구성 요소로 사용할 수 있습니다. 그럼 UIMA는 StandfordCore NLP/GATE와 비슷합니까? 아니면 이러한 종류의 API를 파이프 라인으로 감싸는 데 사용해야합니까?UIMA는 래퍼 만 제공합니까? 아니면 StandfordCore NLP 및 GATE와 비슷합니까?
답변
코어 UIMA 프레임 워크는 특정 NLP 도구를 제공하지 않습니다. UIMA 준수 구성 요소에서 분석 워크 플로를 만들고 실행하는 방법을 제공합니다. 분석 할 데이터가 실제 응용 프로그램에서 상당히 커질 수 있으므로 UIMA는 UIMA-AS 또는 UIMA-DUCC과 같은 분산 런타임 환경을 제공하는 확장성에 중점을 둡니다. 그러나 UIMA는 대규모로 유용 할뿐만 아니라 응용 프로그램에 분석을 포함하거나 언어 처리 실험을 작성하는 과학적 맥락에서 유용합니다. 통계 NLP 구성 요소를 개발하기위한 프레임 워크, 또한 래퍼를 포함 -
종종
이- ClearTK OpenNLP, 스탠포드 CoreNLP 등 : 타사 솔루션을 포장, NLP 도구를 제공 UIMA 구성 요소의 여러 컬렉션이 있습니다 일부 타사 도구 에 대한
- cTAKES - 전자 의료 기록 임상 자유 텍스트에서 정보 추출
- DKPro Core - NLP는 UIMA 많은 타사 도구를 포장하는 UIMA 구성 요소의 모음
- UIMA Addons 일 - UIMA 팀 자체에서 제공하는 구성 요소의 작은 세트는
- U-Compare - 통합 텍스트 마이닝/자연 언어 처리 시스템
이이 글을 쓰는 시점에서 주요 컬렉션의 일부입니다. 검색 할 경우 UIMA 구성 요소의 추가 소스를 찾을 수 있습니다.
핵심 UIMA 프레임 워크는 GATE 임베디드에서 GATE가 기본적으로 제공하는 모든 프로세싱 리소스를 뺀 것과 비슷합니다. UIMA Ruta 워크 벤치는 GATE Developer 워크 벤치 또는 JAPE와 관련이 있다고 할 수 있습니다.
UIMA는 CoreNLP가 수행하는 동안 UIMA가 특정 NLP 구성 요소를 제공하는 데 집중하지 않기 때문에 Stanford CoreNLP와 잘 비교하지 않습니다.
CoreNLP와 같은 NLP 도구는 UIMA 파이프 라인 내에서 사용하기 위해 UIMA 구성 요소로 포장되는 경향이 있습니다.
GATE와 같은 프레임 워크는 일반적으로 UIMA 구성 요소로 래핑되지 않지만 GATE 플러그인으로 제공되는 특정 NLP 도구는 래핑 될 수 있습니다.
공개 : 저는 Apache UIMA 프로젝트와 DKPro Core 프로젝트에서 작업합니다.