2012-04-13 9 views
0

나는 방금 비디오에서 Viterbi 알고리즘을 사용하여 문장의 특정 단어가 명사/동사/adj 등으로 의도되었는지 여부를 확인했으며, 전환 및 방출 확률을 사용했습니다. 예를 들어 '시간'이라는 단어의 사용 확률 동사가 알려져 있기 때문에 (방출) 동사 (전환)로 연결되는 명사의 확률.자연 언어 처리를위한 viterbi 알고리즘 천이 값은 어디에서 찾을 수 있습니까?

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu (비디오)

가 어떻게이 사용 사례에 대한 전환 및 배출 확률의 좋은 데이터 집합을 찾을 수 있습니까?

모든 확률이 표시된 단 하나의 예일 수도 있지만 데모에서는 현실적인 숫자를 사용하고 싶습니다.

답변

1

일반적 히든 마르코프 모델 (HMM에)의 구현은 태그에 대한 비터 비 알고리즘을 수행 할 수 있지만, 또한 알고리즘 열차 (예컨대 바움 - 웰치 알고리즘) 모델로 사용 하였다. 그런 다음, 모델 (즉, 천이 및 방출 확률의 세트)을 얻는 방법은 과 같은 적절한 트레이닝 코퍼스에 훈련 알고리즘을 실행하여 입니다.

쉽게 검사 할 수있는 사전 훈련 된 모델과 함께 제공되는 POS 태거의 자유롭게 사용할 수있는 HMM 기반 구현을 알지 못합니다. 그러나, 많은 점에서 HMM과 유사한 접근법은 조건부 랜덤 필드 (CRF)이다. 일본 토호쿠 대학에서 만든 CRFTagger은 사전 교육을받은 영어 모델을 가지고있는 것으로 보입니다 (다운로드 및 압축 해제 후 파일 model/model.txt 참조). 파일은 사람이 읽을 수 있지만 형식에 대한 세부 정보를 이해하려면 저자에게 문의해야 할 수도 있습니다.