2009-09-11 4 views
1

나는 자연어 처리 프로젝트에서 일하고있다. 그것은 아랍어를위한 도서관을 건설하는 것을 목표로한다. 우리는 POS 태거에 종사하고 지금 문법 단계에서 생각하고 있습니다. 아랍어와 다른 많은 사람들은 문법이 복잡하기 때문에 문맥 자유 문법 (CFG)을 만드는 것은 매우 어렵습니다. 이런 이유로 저는 감독되지 않은 학습을 사용하여 태거 코사에서 임의의 언어에 대해 CFG (확률 PCFG)를 작성하는 알고리즘에 대한 아이디어를 얻었습니다. 알고리즘을 설명하기 위해 나는이 세 가지가 입력으로 문 태그했다고 가정 : 1 동사 명사 2 동사 명사 주제 3 동사 명사 주제 부사를 알고리즘은 제공 : 1) A -> 동사 명사 2) B -> 주제 3) C -> B 부사.
특정 PCFG로 마무리 할 수 ​​있도록 각 방법에 대해이 방법론을 반복합니다. 알고리즘의 주력은 전체 진술을 보는 것 이상의 것입니다. 따라서 확률은 조건부 일 수 있고 구체적입니다. 그런 다음 CKY 알고리즘을 적용하여 확률을 사용하여 새 문장에 가장 적합한 트리를 선택합니다. 이 알고리즘이 좋은지 아닌지 알고 개선 할 가치가 있습니까?자연 언어 CFG 빌더 알고리즘

답변

1

나는 내 M.Sc.과 비슷한 것을했다. 논제 - CFG 규칙 학습 (확률없이) 부분 문법과 POS 태깅 사용. PCFG 학습에 대한 참고 자료 목록은 this question에 대한 제 응답을 참조하십시오. 한 가지 방법은 단어 정보와 노드 이름을 포함하는 어휘 문법을 학습하는 것입니다.

문맥없이 질문에 대답하기가 어렵습니다. 좋은 알고리즘을 어떻게 생각하십니까? 언어 모델이 충분합니까? 그것은 통계적 측정을 최소화합니까? 그것은 충분히 효율적입니까?

아랍어의 풍부한 형태를 감안할 때 어쩌면 문법에 형태를 추가 할 수 있습니다. 성별 및 번호 계약 기능을 추가하십시오.