2017-04-14 17 views
-1

나는 자연어 처리에 초보자입니다. 자동 확률 사전을 만들기 위해 확률 (예 : 75 % 이상)에 따라 의미있는 명사와 명사구를 추출해야합니다.OpenNlp의 청킹 파서를 사용하여 확률에 따라 의미있는 명사구를 추출하는 방법

저는 며칠 동안 온라인 게시물, 기사를 읽었지만 정보 만 발견했습니다. 나는 en-parser-chunking을 사용하려고 생각하고있다 .bin 모델.

위와 비슷한 유스 케이스를 다루는 훌륭한 리소스/예제를 누군가 추천 할 수 있습니까? 내가 지금 서

:

모델 = EN-파서 chunking.bin

문자열 라인 = ". Tutorialspoint 최대 규모의 튜토리얼 라이브러리입니다";

Tree 객체 (출력) : (N (N) 자습서) (NN 자습서) (VP (VB))))

Noun_Probability :

Tutorialspoint_0.4482373645195041 tutorial_0.6801141071099344 library._0.5625105229675064

답변

1

나는이 방법이 좋은 생각하지 않습니다. 제안 할 수 있습니다 : 파서 ​​대신 OpenNLP Chunker를 사용하십시오 (훨씬 빠름). 큰 코퍼스에서 실행하고 명사구와 빈도를 추출하십시오. 어쩌면 빈도가 사전을 구축하는 방법에 대한 힌트를 줄 것입니다.

+0

감사합니다. wcolen! 예, 파서 청킹 속도가 느린 것으로 나타났습니다. 이제 OpenNLP Chunker를 사용해 보겠습니다. – Wendy