2016-11-15 9 views
0

언어 모델링에 익숙하지 않고 큰 텍스트 파일 (~ 7GB)에서 kenlm (또는 this)을 사용하는 3grams 언어 모델을 만듭니다. 내 언어 모델의 바이너리 파일을 확인하고이 같은 파이썬에서 전화 :kenlm을 사용하는 부정적인 결과

import kenlm 
model = kenlm.LanguageModel(<my .klm file>) 
model.score(<my sentence>) 

과 내가 득점의 문장을 변경할 때 내가 result.and 같은 음수를 얻을, 결과는 여전히 부정적이지만 변경 . 큰 텍스트 파일 문장 중 하나를 정확히 제공하지만 텍스트 파일에없는 문장과 비교할 때 나쁜 음수를 제공합니다. 부정적인 결과가 무엇을 의미하는지, 어떻게 변환 할 수 있는지는 알지 못합니다. 일부 문장 사이에서 가장 정확한 문장을 선택하는 긍정적이고 정상적인 결과.

+0

더 많은, 그러나 나는 파이썬의 교육 방법은 어디에도 언급되지 않은, kenlm 문서를 보았다. 우리 모델을 어떻게 훈련시킬 수 있습니까? –

답변

1

마지막 음수는 -9.585592가 문장의 로그 확률입니다. 대수이므로 10을 해당 숫자의 거듭 제곱 (약 2.60 x 10-10)으로 계산해야합니다. 어쩌면 이것이 당신이 찾고있는 양수일지도 모릅니다. 정보 here 나는 의심의 여지가